LLM Performance

Comparaison de l'adéquation des GPU Nvidia pour l'IA

Au milieu de l’agitation du monde moderne, je compare les spécifications techniques de différentes cartes adaptées aux tâches d’IA (Apprentissage profond, Détection d’objets et LLMs). Elles sont toutes incroyablement chères, cependant.

Ce guide explique comment Ollama gère les requêtes parallèles (concurrence, mise en file d’attente et limites de ressources), et comment l’optimiser à l’aide de la variable d’environnement OLLAMA_NUM_PARALLEL (et des paramètres associés).

Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.

Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lorsqu’ils détectent les fautes logiques.

Comparaison des capacités de résumé des LLM

Testons comment les modèles avec différents nombres de paramètres et de quantification se comportent.

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.

LLM Performance

Comparaison de l'adéquation des GPU Nvidia pour l'IA

Comment Ollama gère les requêtes parallèles

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Comparaison des capacités de résumé des LLM

Test de vitesse des grands modèles de langage