LLM Performance

Cómo Ollama maneja solicitudes en paralelo

Cómo Ollama maneja solicitudes en paralelo

Configurando ollama para la ejecución de solicitudes en paralelo.

Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Prueba de detección de falacias lógicas

Recientemente hemos visto la liberación de varios nuevos LLMs. Tiempo emocionante. Vamos a probar y ver cómo se desempeñan al detectar falacias lógicas.

Prueba de velocidad de modelos de lenguaje grandes

Prueba de velocidad de modelos de lenguaje grandes

Probemos la velocidad de los LLM en GPU frente a CPU

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.