Performance

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Stratégies de mise en cache avec Hugo sont essentielles pour maximiser les performances de votre générateur de site statique. Bien que Hugo génère des fichiers statiques qui sont naturellement rapides, la mise en œuvre d’une mise en cache appropriée à plusieurs niveaux peut améliorer considérablement les temps de construction, réduire la charge du serveur et améliorer l’expérience utilisateur.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama présentent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.

Performance des LLM et voies PCIe : Points clés à considérer

Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

J’ai une théorie à tester - si l’utilisation de tous les cœurs d’un processeur Intel augmenterait la vitesse des LLM ? Cela me tracasse que le nouveau modèle gemma3 27 bit (gemma3:27b, 17 Go sur ollama) ne tienne pas dans les 16 Go de VRAM de mon GPU, et qu’il s’exécute partiellement sur le CPU.

Comment Ollama gère les requêtes parallèles

Lorsque le serveur Ollama reçoit deux demandes en même temps, son comportement dépend de sa configuration et des ressources système disponibles.

Il y a peu de temps, a été publié. Commençons par un point sur la mise à jour et testons comment Mistral Small se compare aux autres LLMs ici.

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.

Performance

Performance des LLM en 2026 : benchmarks, points de blocage et optimisation

Stratégies de mise en cache Hugo pour les performances

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

Problèmes de sortie structurée d'Ollama GPT-OSS

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Performance des LLM et voies PCIe : Points clés à considérer

Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces

Comment Ollama gère les requêtes parallèles

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi - Test des modèles de langage

Test de vitesse des grands modèles de langage