LLM Performance

Benchmarks LLM avec 16 Go de VRAM utilisant llama.cpp (vitesse et contexte)

Voici, je compare la vitesse de plusieurs LLM tournant sur un GPU avec 16 Go de VRAM, et je choisis le meilleur pour l’auto-hébergement.

Comparaison des performances des LLM sur Ollama sur une GPU avec 16 Go de VRAM

Exécuter des modèles de langage volumineux localement vous offre la confidentialité, la capacité hors ligne et un coût API nul. Ce benchmark révèle exactement ce à quoi on peut s’attendre à partir de 14 modèles populaires LLMs sur Ollama sur un RTX 4080.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).

L'essor des ASIC pour LLM : pourquoi le matériel d'inférence compte

L’avenir de l’IA ne réside pas seulement dans des modèles plus intelligents, mais dans des siliciums plus intelligents.
L’équipement matériel spécialisé pour l’inférence des LLM entraîne une révolution similaire à celle du passage du minage de Bitcoin aux ASICs.

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b
axée sur le suivi des instructions et les performances, les spécifications et la vitesse.

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama présentent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.

Performance des LLM et voies PCIe : Points clés à considérer

Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

J’ai une théorie à tester - si l’utilisation de tous les cœurs d’un processeur Intel augmenterait la vitesse des LLM ? Cela me tracasse que le nouveau modèle gemma3 27 bit (gemma3:27b, 17 Go sur ollama) ne tienne pas dans les 16 Go de VRAM de mon GPU, et qu’il s’exécute partiellement sur le CPU.

Comparaison de la pertinence des GPU NVidia pour l'IA

Dans le milieu du chaos du monde moderne ici, je compare les spécifications techniques de différentes cartes adaptées aux tâches IA
(Deep Learning,
Détection d’objets
et LLMs).
Elles sont toutes extrêmement chères toutefois.

Comment Ollama gère les requêtes parallèles

Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.

Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.

Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lorsqu’ils détectent les fautes logiques.

Comparaison des capacités de résumé des LLM

Testons comment les modèles avec différents nombres de paramètres et de quantification se comportent.

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.

LLM Performance

Benchmarks LLM avec 16 Go de VRAM utilisant llama.cpp (vitesse et contexte)

Comparaison des performances des LLM sur Ollama sur une GPU avec 16 Go de VRAM

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

L'essor des ASIC pour LLM : pourquoi le matériel d'inférence compte

Comparaison : Qwen3:30b vs GPT-OSS:20b

Problèmes de sortie structurée d'Ollama GPT-OSS

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Performance des LLM et voies PCIe : Points clés à considérer

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

Comparaison de la pertinence des GPU NVidia pour l'IA

Comment Ollama gère les requêtes parallèles

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Comparaison des capacités de résumé des LLM

Test de vitesse des grands modèles de langage