Ollama

Auto-hébergement de Cognee : Tests de performance des LLM

Cognee est un framework Python pour construire des graphes de connaissances à partir de documents en utilisant des LLMs. Mais fonctionne-t-il avec des modèles auto-hébergés ?

BAML vs Instructor : Sorties structurées des LLM

Lors de l’utilisation de grands modèles de langage en production, obtenir des sorties structurées et de type sûr est essentiel. Deux frameworks populaires - BAML et Instructor - adoptent des approches différentes pour résoudre ce problème.

Choisir le bon LLM pour Cognee : Configuration locale avec Ollama

Choisir le Meilleur LLM pour Cognee demande de trouver un équilibre entre la qualité de construction de graphes, les taux d’hallucination et les contraintes matérielles. Cognee excelle avec des modèles plus grands et à faible taux d’hallucination (32B+) via Ollama, mais des options de taille moyenne conviennent aux configurations plus légères.

Utiliser l'API de recherche web d'Ollama en Python

La bibliothèque Python d’Ollama inclut désormais des capacités natives de recherche web Ollama. Avec quelques lignes de code, vous pouvez enrichir vos modèles locaux de LLM avec des informations en temps réel provenant du web, réduisant ainsi les hallucinations et améliorant la précision.

Utiliser l'API de recherche web d'Ollama en Go

L’API de recherche web d’Ollama vous permet d’augmenter les LLM locaux avec des informations en temps réel du web. Ce guide vous montre comment implémenter des capacités de recherche web en Go, des appels d’API simples aux agents de recherche complets.

Hébergement local d'LLM : Guide complet 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio et plus encore

Déploiement local des LLM est devenu de plus en plus populaire alors que les développeurs et les organisations recherchent une meilleure confidentialité, une latence réduite et un contrôle accru sur leur infrastructure d’IA.

Infrastructure d'IA sur le matériel grand public

La démocratisation de l’IA est ici. Avec des LLM open source comme Llama 3, Mixtral et Qwen qui rivalisent désormais avec les modèles propriétaires, les équipes peuvent construire une infrastructure puissante d’IA à l’aide du matériel grand public - réduisant les coûts tout en maintenant un contrôle complet sur la confidentialité des données et le déploiement.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

J’ai découvert quelques tests de performance intéressants du modèle GPT-OSS 120b exécuté sur Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’adapter dans les 16 Go de VRAM d’une RTX 4080 (ou même sur la nouvelle RTX 5080).

Docker Model Runner vs Ollama : lequel choisir ?

Exécuter des grands modèles de langage (LLMs) localement a devenu de plus en plus populaire pour la confidentialité, le contrôle des coûts et les capacités hors ligne. Le paysage a changé de manière significative en avril 2025 lorsque Docker a introduit Docker Model Runner (DMR), sa solution officielle pour le déploiement de modèles d’IA.

Clients Go pour Ollama : comparaison des SDK et exemples avec Qwen3/GPT-OSS

Ce guide fournit un aperçu complet des SDK Go pour Ollama disponibles et compare leurs ensembles de fonctionnalités.

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b
se concentrant sur le suivi des instructions et les performances, les paramètres, les spécifications et la vitesse :

Intégrer Ollama avec Python : exemples d'API REST et de client Python

Dans cet article, nous allons explorer deux façons de connecter votre application Python à Ollama : 1. Via HTTP REST API ; 2. Via la bibliothèque Python officielle d’Ollama.

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama rencontrent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

Contrainte des LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go

Les grands modèles de langage (LLMs) sont puissants, mais en production, nous souhaitons rarement des paragraphes libres. Au contraire, nous voulons des données prévisibles : des attributs, des faits ou des objets structurés que vous pouvez alimenter dans une application. C’est la sortie structurée des LLM.

Modèle de planification de l'allocation de mémoire dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare combien de VRAM la nouvelle version d’Ollama alloue au modèle
par rapport à la version précédente d’Ollama. La nouvelle version est pire.

L'Enshittification d'Ollama - Les premiers signes

Ollama a rapidement devenu l’un des outils les plus populaires pour exécuter localement des LLM (Large Language Models). Son interface CLI simple et sa gestion des modèles optimisée ont fait de lui une option privilégiée pour les développeurs souhaitant travailler avec des modèles d’IA hors du cloud. Mais comme c’est souvent le cas avec de nombreuses plateformes prometteuses, des signes d’Enshittification apparaissent déjà :