LLM - Page 2 - Rost Glukhov | Site personnel et blog technique

Mode routeur de Llama-Server : basculement dynamique de modèles sans redémarrage

Pendant longtemps, llama.cpp présentait une limitation criante : vous ne pouviez servir qu’un seul modèle par processus, et changer de modèle impliquait un redémarrage.

Compétences Claude et SKILL.md pour les développeurs : VS Code, JetBrains, Cursor

La plupart des équipes utilisent mal les Compétences Claude de deux manières. Elles transforment soit SKILL.md en une poubelle, soit elles ne passent jamais à autre chose que des prompts géants copiés-collés.

Compétences de l'assistant IA Hermes pour des environnements de production réels

L’assistant IA Hermes, officiellement documenté sous le nom de Hermes Agent, ne se positionne pas comme un simple wrapper de chat.

Écosystème des compétences OpenClaw et choix pratiques pour la production

OpenClaw possède deux types d’extensions, et il est facile de les confondre.

Les plugins étendent le temps d’exécution (runtime). Les compétences (skills) étendent le comportement de l’agent.

Plugins OpenClaw — Guide de l'écosystème et sélections pratiques

Cet article porte sur les plugins OpenClaw — des paquets de passerelle natifs qui ajoutent des canaux, des fournisseurs de modèles, des outils, de la parole, de la mémoire, des médias, une recherche web et d’autres surfaces d’exécution.

Modèles de configuration de production OpenClaw avec plugins et compétences

OpenClaw semble simple dans les démonstrations. En production, il devient un système.

Claude, OpenClaw et la fin du prix unique pour les agents

La faille discrète qui a alimenté une vague d’expérimentation d’agents est désormais close.

Démarrage rapide de Vane (Perplexica 2.0) avec Ollama et llama.cpp

Vane est l’une des entrées les plus pragmatiques dans le domaine de la « recherche IA avec citations » : un moteur de réponse auto-hébergé qui combine la récupération web en direct avec des LLM locaux ou cloud, tout en gardant toute la pile sous votre contrôle.

Installation et configuration de Claude Code pour Ollama, llama.cpp, tarification

Claude Code n’est pas un simple autocomplétion avec un meilleur marketing. C’est un outil de codage agentique : il lit votre base de code, modifie des fichiers, exécute des commandes et s’intègre à vos outils de développement.

Assistant IA Hermes - Installation, configuration, flux de travail et dépannage

Hermes Agent est un assistant IA auto-hébergé et agnostique en ce qui concerne les modèles, qui s’exécute sur une machine locale ou un VPS à faible coût, fonctionne via des interfaces en terminal et de messagerie, et s’améliore avec le temps en transformant les tâches répétitives en compétences réutilisables.

TGI - Text Generation Inference - Installation, Configuration, Dépannage

Text Generation Inference (TGI) possède une énergie très particulière. Ce n’est pas le nouveau venu de la rue de l’inférence, mais c’est celui qui a déjà appris comment la production peut se briser -

Benchmarks LLM avec 16 Go de VRAM et llama.cpp (vitesse et contexte)

Voici une comparaison de la vitesse de plusieurs LLMs (modèles de langage grand) fonctionnant sur un GPU avec 16 Go de VRAM, et le choix du meilleur pour l’auto-hébergement.

Prix et disponibilité de la RTX 5090 en Australie : la réalité de mars 2026

L’Australie dispose de stock pour la RTX 5090. À peine. Et si vous en trouvez une, vous paierez une prime qui semble déconnectée de la réalité.

Accès distant à Ollama via Tailscale ou WireGuard, sans ports publics.

Ollama est à son meilleur lorsque l’on le traite comme un démon local : la CLI et vos applications communiquent avec une API HTTP en boucle locale (loopback), et le reste du réseau ignore son existence.

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.

Ollama derrière un proxy inversé avec Caddy ou Nginx pour le streaming HTTPS

Exécuter Ollama derrière un proxy inversé est le moyen le plus simple d’obtenir HTTPS, un contrôle d’accès facultatif et un comportement de streaming prévisible.