Hardware

Comment Ollama gère les requêtes parallèles

Comment Ollama gère les requêtes parallèles

Configurer ollama pour l'exécution de requêtes en parallèle.

Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.

Test de vitesse des grands modèles de langage

Test de vitesse des grands modèles de langage

Testons la vitesse des LLM sur GPU par rapport au CPU

Comparaison de la vitesse de prédiction de plusieurs versions de LLM (modèles de langage grand public) : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.