LLM Performance

Comparando la idoneidad de las GPUs de Nvidia para IA

En medio del caos del mundo moderno, aquí estoy comparando las especificaciones técnicas de diferentes tarjetas adecuadas para tareas de IA (Aprendizaje Profundo, Detección de Objetos y Modelos de Lenguaje Grande). Sin embargo, todas son increíblemente caras.

Cómo Ollama maneja las solicitudes en paralelo

Esta guía explica cómo Ollama maneja las solicitudes paralelas (concurrencia, colas y límites de recursos), y cómo ajustarlo utilizando la variable de entorno OLLAMA_NUM_PARALLEL (y otros parámetros relacionados).

No hace mucho tiempo se lanzó. Vamos a ponernos al día y pruebe cómo se comporta Mistral Small en comparación con otros LLMs.

Recientemente hemos visto la liberación de varios nuevos LLMs. Tiempo emocionante. Vamos a probar y ver cómo se desempeñan al detectar falacias lógicas.

Comparando las capacidades de resumen de los LLM

Prueba de cómo se comportan los modelos con diferentes números de parámetros y cuantización.

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.