LLM Performance

Comment Ollama gère les requêtes parallèles

Comment Ollama gère les requêtes parallèles

Comprendre la concurrence, la mise en file d’attente et comment ajuster OLLAMA_NUM_PARALLEL pour des requêtes parallèles stables.

Ce guide explique comment Ollama gère les requêtes parallèles (concurrence, mise en file d’attente et limites de ressources), et comment l’optimiser à l’aide de la variable d’environnement OLLAMA_NUM_PARALLEL (et des paramètres associés).

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Test de détection des fautes de raisonnement

Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lorsqu’ils détectent les fautes logiques.

Test de vitesse des grands modèles de langage

Test de vitesse des grands modèles de langage

Testons la vitesse des LLM sur GPU vs CPU

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.