LLM Performance

Cómo Ollama maneja las solicitudes en paralelo

Cómo Ollama maneja las solicitudes en paralelo

Comprende la concurrencia y la cola de Ollama, y aprende a ajustar OLLAMA_NUM_PARALLEL para solicitudes paralelas estables.

Esta guía explica cómo Ollama maneja las solicitudes paralelas (concurrencia, colas y límites de recursos), y cómo ajustarlo utilizando la variable de entorno OLLAMA_NUM_PARALLEL (y otros parámetros relacionados).

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Prueba de detección de falacias lógicas

Recientemente hemos visto la liberación de varios nuevos LLMs. Tiempo emocionante. Vamos a probar y ver cómo se desempeñan al detectar falacias lógicas.

Prueba de velocidad de modelos de lenguaje grandes

Prueba de velocidad de modelos de lenguaje grandes

Probemos la velocidad de los LLM en GPU frente a CPU

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.