LLM Performance

Décodage spéculatif : inférence des LLM 20 à 50 % plus rapide

Un modèle de 70 milliards de paramètres génère un jeton (token) par passage avant, et chaque passage recharge les poids depuis la mémoire VRAM, calcule l’attention sur tout le contexte et synchronise la mémoire. Entre les jetons, le GPU reste inactif en attendant que les dépendances séquentielles soient résolues.

Qwen 3.6 27B et 35B MTP par rapport au standard sur GPU 16 Go

J’ai testé les performances de la décodage spéculatif (Multi-Token Prediction, MTP) sur les modèles Qwen 3.6 27B et 35B avec une RTX 4080 dotée de 16 Go de VRAM.

Validation des sorties structurées des LLM en Python qui tient la route

La plupart des tutoriels sur les « sorties structurées » des LLM manquent de sérieux. Ils vous apprennent à demander du JSON poliment, puis à espérer que le modèle se comporte correctement. Ce n’est pas de la validation. C’est de l’optimisme entre accolades.

Référence des paramètres d'inférence des LLMs agissants pour Qwen et Gemma

Cette page est une référence pratique pour l’optimisation de l’inférence des LLMs agents (température, top_p, top_k, pénalités, et comment ils interagissent dans les flux de travail multi-étapes et intensifs en outils).

Benchmarks LLM avec 16 Go de VRAM et llama.cpp (vitesse et contexte)

Voici une comparaison de la vitesse de plusieurs LLMs (modèles de langage grand) fonctionnant sur un GPU avec 16 Go de VRAM, et le choix du meilleur pour l’auto-hébergement.

Performances des LLM en 2026 : Benchmarks, Goulots d’étranglement et Optimisation

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Comparaison des performances des LLMs sur Ollama avec un GPU de 16 Go de VRAM

L’exécution locale de grands modèles de langage (LLM) vous offre confidentialité, fonctionnement hors ligne et zéro coût d’API. Ce benchmark révèle exactement ce qu’on peut attendre de 14 LLMs populaires sur Ollama avec une RTX 4080.

BAML vs Instructor : Sorties structurées des LLM

Lors du travail avec des modèles de langage de grande taille (LLM) en production, obtenir des outputs structurés et sûrs de type est critique. Deux frameworks populaires - BAML et Instructor - adoptent des approches différentes pour résoudre ce problème.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).

ASIC pour LLM et puces d'inférence spécialisées (leur importance)

L’avenir de l’IA ne concerne pas seulement des modèles plus intelligents. Il s’agit également de silicium adapté à la manière dont ces modèles sont réellement déployés. Le matériel spécialisé pour l’inférence des LLM emprunte une voie rappelant le passage du minage de Bitcoin des GPU aux ASIC conçus pour un usage spécifique, mais avec des contraintes plus strictes, car les modèles et les recettes de précision continuent d’évoluer.

Comparaison : Qwen3:30b contre GPT-OSS:20b

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b portant sur le respect des instructions et les paramètres de performance, les spécifications et la vitesse.

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama présentent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

Comparaison des sorties structurées chez les principaux fournisseurs de LLM - OpenAI, Gemini, Anthropic, Mistral et AWS Bedrock

Voici une comparaison côte à côte du support de la sortie structurée (obtention de JSON fiable) chez les principaux fournisseurs de LLM, ainsi que des exemples Python minimaux.

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.

Performance des LLM et voies PCIe : Points clés à considérer

Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

J’ai une théorie à tester - si l’utilisation de tous les cœurs d’un processeur Intel augmenterait la vitesse des LLM ? Cela me tracasse que le nouveau modèle gemma3 27 bit (gemma3:27b, 17 Go sur ollama) ne tienne pas dans les 16 Go de VRAM de mon GPU, et qu’il s’exécute partiellement sur le CPU.