LLM Performance

Decodificación especulativa: Inferencia de LLM 20-50% más rápida

Un modelo de 70B genera un token por pasada directa (forward pass), y cada recarga los pesos desde la VRAM, calcula la atención en todo el contexto y sincroniza la memoria. Entre tokens, la GPU se queda inactiva mientras espera a que se resuelvan las dependencias secuenciales.

Qwen 3.6 27B y 35B MTP frente a estándar en GPU de 16 GB

Probé el rendimiento de la decodificación especulativa (Predicción Multitoken, MTP) en Qwen 3.6 27B y 35B en una RTX 4080 con 16 GB de VRAM.

Validación de salida estructurada de LLM en Python que es sólida

La mayoría de los tutoriales sobre “salida estructurada” de los LLM son poco serios. Te enseñan a pedir JSON amablemente y luego a esperar que el modelo se comporte. Eso no es validación. Eso es optimismo con llaves.

Referencia de parámetros de inferencia de LLMs agénticos para Qwen y Gemma

Esta página es una referencia práctica para la afinación de inferencia de LLMs agentivos (temperatura, top_p, top_k, penalizaciones y cómo interactúan en flujos de trabajo multietapa y con uso intensivo de herramientas).

Benchmarks de LLM con 16 GB de VRAM con llama.cpp (velocidad y contexto)

Aquí comparo la velocidad de varios LLMs (modelos de lenguaje grande) ejecutándose en una GPU con 16 GB de VRAM, y elijo el mejor para autoalojamiento.

Rendimiento de los LLM en 2026: benchmarks, cuellos de botella y optimización

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Comparación del rendimiento de los LLMs en Ollama con GPU de 16 GB de VRAM

Ejecutar modelos de lenguaje grandes (LLMs) de forma local te ofrece privacidad, capacidad de funcionamiento sin conexión y cero costos de API. Este análisis revela exactamente qué se puede esperar de 14 LLMs populares en Ollama con una RTX 4080.

BAML vs Instructor: Salidas estructuradas de LLM

Al trabajar con modelos de lenguaje grandes (LLM) en producción, obtener salidas estructuradas y seguras en cuanto a tipos es fundamental. Dos marcos de trabajo populares, BAML e Instructor, adoptan enfoques diferentes para resolver este problema.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).

ASICs para LLM y chips especializados de inferencia (por qué son importantes)

El futuro de la IA no se trata solo de modelos más inteligentes. También se trata de silicio que se adapte a la forma en que esos modelos se sirven realmente. El hardware especializado para inferencia de LLM sigue una trayectoria que recuerda al cambio de la minería de Bitcoin desde las GPUs hacia los ASICs diseñados específicamente, pero con restricciones más estrictas porque los modelos y las recetas de precisión siguen evolucionando.

Aquí tienes una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y los parámetros de rendimiento, especificaciones y velocidad.

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Comparación de salida estructurada entre los principales proveedores de LLM: OpenAI, Gemini, Anthropic, Mistral y AWS Bedrock

Aquí tienes una comparación lado a lado del soporte de salida estructurada (obtención de JSON confiable) en los principales proveedores de LLM, junto con ejemplos mínimos en Python.

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.

Rendimiento de LLM y canales PCIe: Consideraciones clave

¿Cómo afectan los canales PCIe al rendimiento de los LLM?? Dependiendo de la tarea. Para el entrenamiento y la inferencia con múltiples GPUs, la caída de rendimiento es significativa.

Prueba: Cómo Ollama está utilizando el rendimiento de la CPU de Intel y los núcleos eficientes

Tengo una teoría que quiero probar: ¿utilizar todos los núcleos en un procesador Intel aumentaría la velocidad de los LLMs? Me molesta que el nuevo modelo gemma3 de 27 bits (gemma3:27b, 17 GB en ollama) no entre en los 16 GB de VRAM de mi GPU, y se ejecute parcialmente en el CPU.