AI - Page 3 - Rost Glukhov | Site personnel et blog technique

RAG avancé : LongRAG, Self-RAG et GraphRAG expliqués

Retrieval-Augmented Generation (RAG) a évolué bien au-delà de la simple recherche de similarité vectorielle. LongRAG, Self-RAG et GraphRAG représentent l’avant-garde de ces capacités.

FLUX.1-dev est un modèle puissant de génération d’images à partir de texte qui produit des résultats impressionnants, mais sa demande en mémoire de 24 Go ou plus le rend difficile à exécuter sur de nombreux systèmes. Quantification GGUF de FLUX.1-dev offre une solution, réduisant l’utilisation de la mémoire d’environ 50 % tout en maintenant une excellente qualité d’image.

Docker Model Runner : Guide de configuration de la taille du contexte

Configuration des tailles de contexte dans Docker Model Runner est plus complexe qu’elle ne devrait l’être.

FLUX.1-Kontext-dev : Modèle d'intelligence artificielle d'augmentation d'images

Black Forest Labs a publié FLUX.1-Kontext-dev, un modèle avancé d’IA de transformation d’images qui améliore les images existantes à l’aide d’instructions textuelles.

Ajout de la prise en charge des GPU NVIDIA au Docker Model Runner

Docker Model Runner est l’outil officiel de Docker pour exécuter des modèles d’IA localement, mais l’activation de l’accélération GPU NVidia dans Docker Model Runner nécessite une configuration spécifique.

Réduisez les coûts des LLM : stratégies d'optimisation des tokens

L’optimisation des tokens est la compétence critique qui distingue les applications LLM rentables des expériences coûteuses.

Auto-hébergement d'Immich : nuage photo privé

Immich est une solution révolutionnaire, open source et auto-hébergée pour la gestion de vos photos et vidéos, vous donnant un contrôle complet sur vos souvenirs. Avec des fonctionnalités rivales de celles de Google Photos, notamment la reconnaissance faciale alimentée par l’intelligence artificielle, la recherche intelligente et le sauvegarde automatique depuis les appareils mobiles, tout en maintenant vos données privées et sécurisées sur votre propre serveur.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).

Création de serveurs MCP en Python : guide de recherche web et de scraping

Le protocole de contexte du modèle (MCP) révolutionne la manière dont les assistants IA interagissent avec des sources de données externes et des outils. Dans ce guide, nous explorerons comment construire des serveurs MCP en Python, avec des exemples axés sur les capacités de recherche web et de scraping.

Fichier d'aide-mémoire Docker Model Runner : commandes et exemples

Docker Model Runner (DMR) est la solution officielle de Docker pour exécuter des modèles d’IA localement, introduite en avril 2025. Cette fiche pratique fournit un référentiel rapide pour toutes les commandes essentielles, les configurations et les bonnes pratiques.

Docker Model Runner vs Ollama (2026) : lequel est meilleur pour les LLM locaux ?

Exécuter des grands modèles de langage (LLMs) localement a de plus en plus de popularité pour la confidentialité, le contrôle des coûts et les capacités hors ligne. Le paysage s’est considérablement transformé en avril 2025 lorsque Docker a introduit Docker Model Runner (DMR), sa solution officielle pour le déploiement de modèles d’IA.

L'essor des ASIC pour LLM : pourquoi le matériel d'inférence compte

L’avenir de l’IA ne réside pas seulement dans des modèles plus intelligents, mais dans des siliciums plus intelligents.
L’équipement matériel spécialisé pour l’inférence des LLM entraîne une révolution similaire à celle du passage du minage de Bitcoin aux ASICs.

DGX Spark vs. Mac Studio : une analyse tarifaire de l'ordinateur personnel AI de NVIDIA

NVIDIA DGX Spark est réel, disponible à la vente le 15 octobre 2025, et ciblé aux développeurs CUDA ayant besoin de travail local avec des LLM avec une pile AI NVIDIA intégrée. Prix de vente au détail aux États-Unis $3 999 ; le prix de vente au détail UK/DE/JP est plus élevé en raison de la TVA et des canaux. Les prix publics AUD/KRW ne sont pas encore largement affichés.

Clients Go pour Ollama : comparaison des SDK et exemples avec Qwen3/GPT-OSS

Ce guide fournit un aperçu complet des SDK Go pour Ollama disponibles et compare leurs ensembles de fonctionnalités.

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b
axée sur le suivi des instructions et les performances, les spécifications et la vitesse.

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama présentent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

AI

RAG avancé : LongRAG, Self-RAG et GraphRAG expliqués

Exécuter FLUX.1-dev GGUF Q8 en Python

Docker Model Runner : Guide de configuration de la taille du contexte

FLUX.1-Kontext-dev : Modèle d'intelligence artificielle d'augmentation d'images

Ajout de la prise en charge des GPU NVIDIA au Docker Model Runner

Réduisez les coûts des LLM : stratégies d'optimisation des tokens

Auto-hébergement d'Immich : nuage photo privé

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

Création de serveurs MCP en Python : guide de recherche web et de scraping

Fichier d'aide-mémoire Docker Model Runner : commandes et exemples

Docker Model Runner vs Ollama (2026) : lequel est meilleur pour les LLM locaux ?

L'essor des ASIC pour LLM : pourquoi le matériel d'inférence compte

DGX Spark vs. Mac Studio : une analyse tarifaire de l'ordinateur personnel AI de NVIDIA

Clients Go pour Ollama : comparaison des SDK et exemples avec Qwen3/GPT-OSS

Comparaison : Qwen3:30b vs GPT-OSS:20b

Problèmes de sortie structurée d'Ollama GPT-OSS