Performance
Estrategias de caché de Hugo para el rendimiento
Optimizar el desarrollo y ejecución de sitios Hugo
Estrategias de caché en Hugo son esenciales para maximizar el rendimiento de tu generador de sitios estáticos. Aunque Hugo genera archivos estáticos que son inherentemente rápidos, implementar un caché adecuado en múltiples capas puede mejorar drásticamente los tiempos de construcción, reducir la carga del servidor y mejorar la experiencia del usuario.
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación del rendimiento de Ollama
Resultados de benchmarks de GPT-OSS 120b en tres plataformas de IA
Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).
Problemas de salida estructurada de Ollama GPT-OSS
No muy agradable.
Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.
Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1
Mi propia prueba de programación del modelo ollama
Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.
Rendimiento de LLM y canales PCIe: Consideraciones clave
¿Piensa en instalar una segunda GPU para LLMs?
¿Cómo afectan los canales PCIe al rendimiento de los LLM?? Dependiendo de la tarea. Para el entrenamiento y la inferencia con múltiples GPUs, la caída de rendimiento es significativa.
Prueba: Cómo Ollama está utilizando el rendimiento de la CPU de Intel y los núcleos eficientes
Ollama en CPU de Intel: núcleos eficientes vs. de rendimiento
Tengo una teoría que quiero probar: ¿utilizar todos los núcleos en un procesador Intel aumentaría la velocidad de los LLMs? Me molesta que el nuevo modelo gemma3 de 27 bits (gemma3:27b, 17 GB en ollama) no entre en los 16 GB de VRAM de mi GPU, y se ejecute parcialmente en el CPU.
Cómo Ollama maneja solicitudes en paralelo
Configurando ollama para la ejecución de solicitudes en paralelo.
Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - Prueba de modelos de lenguaje grande
Siguiente ronda de pruebas de LLM
No hace mucho tiempo se lanzó. Vamos a ponernos al día y pruebe cómo se comporta Mistral Small en comparación con otros LLMs.
Prueba de velocidad de modelos de lenguaje grandes
Probemos la velocidad de los LLM en GPU frente a CPU
Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.