LLM - Page 2 - Rost Glukhov | Site personnel et blog technique

Réduisez les coûts des LLM : stratégies d'optimisation des tokens

L’optimisation des tokens est la compétence critique qui distingue les applications LLM rentables des expériences coûteuses.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

J’ai découvert quelques tests de performance intéressants du modèle GPT-OSS 120b exécuté sur Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’adapter dans les 16 Go de VRAM d’une RTX 4080 (ou même sur la nouvelle RTX 5080).

Création de serveurs MCP en Python : guide de recherche web et de scraping

Le protocole de contexte du modèle (MCP) révolutionne la manière dont les assistants IA interagissent avec des sources de données externes et des outils. Dans ce guide, nous explorerons comment construire des serveurs MCP en Python, avec des exemples axés sur les capacités de recherche web et de scraping.

Convertir HTML en Markdown avec Python : Un guide complet

Conversion de HTML en Markdown est une tâche fondamentale dans les workflows de développement modernes, particulièrement lors de la préparation du contenu web pour les grands modèles de langage (LLM), les systèmes de documentation ou les générateurs de sites statiques comme Hugo.

Fiche de raccourcis Docker Model Runner : commandes et exemples

Docker Model Runner (DMR) est la solution officielle de Docker pour exécuter des modèles d’IA localement, introduite en avril 2025. Cette fiche de référence fournit un aperçu rapide de toutes les commandes essentielles, configurations et bonnes pratiques.

Docker Model Runner vs Ollama : lequel choisir ?

Exécuter des grands modèles de langage (LLMs) localement a devenu de plus en plus populaire pour la confidentialité, le contrôle des coûts et les capacités hors ligne. Le paysage a changé de manière significative en avril 2025 lorsque Docker a introduit Docker Model Runner (DMR), sa solution officielle pour le déploiement de modèles d’IA.

L'essor des ASIC pour LLM : pourquoi le matériel d'inférence compte

L’avenir de l’IA ne concerne pas seulement des modèles plus intelligents [https://www.glukhov.org/fr/post/2025/06/qwen3-embedding-qwen3-reranker-on-ollama/ “Modèles Qwen3 embedding et reranker - performance d’avant-garde”] - il concerne des siliciums plus intelligents.
L’évolution vers un matériel spécialisé pour l’inférence des LLM entraîne une révolution similaire à celle du passage du minage de Bitcoin aux ASICs.

DGX Spark vs. Mac Studio : une analyse tarifaire de l'ordinateur personnel AI de NVIDIA

NVIDIA DGX Spark est réel, disponible à la vente le 15 octobre 2025, et ciblé aux développeurs CUDA ayant besoin de travail local avec des LLM avec une pile AI NVIDIA intégrée. Prix de vente au détail aux États-Unis $3 999 ; le prix de vente au détail UK/DE/JP est plus élevé en raison de la TVA et des canaux. Les prix publics AUD/KRW ne sont pas encore largement affichés.

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b
se concentrant sur le suivi des instructions et les performances, les paramètres, les spécifications et la vitesse :

Intégrer Ollama avec Python : exemples d'API REST et de client Python

Dans cet article, nous allons explorer deux façons de connecter votre application Python à Ollama : 1. Via HTTP REST API ; 2. Via la bibliothèque Python officielle d’Ollama.

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama rencontrent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

Comparaison structurée des sorties parmi les fournisseurs d'LLM populaires - OpenAI, Gemini, Anthropic, Mistral et AWS Bedrock

Voici une comparaison côte à côte du support de sortie structurée (obtenir un JSON fiable) auprès des fournisseurs d’LLM populaires, ainsi que des exemples minimalistes en Python

Contrainte des LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go

Les grands modèles de langage (LLMs) sont puissants, mais en production, nous souhaitons rarement des paragraphes libres. Au contraire, nous voulons des données prévisibles : des attributs, des faits ou des objets structurés que vous pouvez alimenter dans une application. C’est la sortie structurée des LLM.

Modèle de planification de l'allocation de mémoire dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare combien de VRAM la nouvelle version d’Ollama alloue au modèle
par rapport à la version précédente d’Ollama. La nouvelle version est pire.

L'Enshittification d'Ollama - Les premiers signes

Ollama a rapidement devenu l’un des outils les plus populaires pour exécuter localement des LLM (Large Language Models). Son interface CLI simple et sa gestion des modèles optimisée ont fait de lui une option privilégiée pour les développeurs souhaitant travailler avec des modèles d’IA hors du cloud. Mais comme c’est souvent le cas avec de nombreuses plateformes prometteuses, des signes d’Enshittification apparaissent déjà :

Interfaces de chat pour les instances locales d'Ollama

L’hébergement local de Ollama permet d’exécuter des modèles de langage volumineux sur votre propre machine, mais son utilisation via la ligne de commande n’est pas très conviviale.
Voici plusieurs projets open source qui proposent des interfaces du style ChatGPT qui se connectent à un Ollama local.