Qu’est-ce que Docker Model Runner (DMR) et en quoi diffère-t-il d’Ollama ?

Docker Model Runner est la solution officielle de Docker, introduite en avril 2025, permettant d’exécuter des modèles d’IA localement à l’aide de commandes Docker natives (docker model pull, docker model run). Il empaquète les modèles en tant qu’OCI Artifacts et s’intègre avec Docker Hub. Ollama est un runtime autonome pour les LLM, avec son propre CLI (ollama run, ollama pull), optimisé pour la simplicité. DMR convient aux équipes utilisant des workflows Docker, tandis qu’Ollama est plus simple pour le prototypage rapide, indépendamment de l’infrastructure.

Lequel est plus rapide pour l’inférence : Docker Model Runner ou Ollama ?

À la fois Ollama et Docker Model Runner (DMR) offrent des vitesses d’inférence similaires, puisque DMR prend en charge les modèles au format GGUF, comme Ollama. Docker ajoute un surcoût minimal avec une configuration appropriée. Les performances dépendent principalement de l’accélération GPU, de la quantisation du modèle (Q4, Q5, Q8) et du matériel, plutôt que du choix du runner.

Puis-je exécuter plusieurs modèles simultanément avec les deux solutions ?

Oui, les deux prennent en charge l’exécution de plusieurs modèles. Ollama gère nativement le passage d’un modèle à un autre. Docker Model Runner et d’autres solutions Docker peuvent exécuter plusieurs modèles dans des conteneurs séparés, avec une meilleure isolation des ressources et un support simultané pour différents cadres.

Ai-je besoin du support GPU pour Docker Model Runner et Ollama ?

Non, les deux peuvent fonctionner sur des systèmes ne disposant que d’un processeur CPU, bien que les performances soient nettement plus lentes. Ollama détecte automatiquement et utilise les GPU disponibles. Docker Model Runner propose un support natif des GPU sans configuration complexe de nvidia-docker, simplifiant ainsi l’accélération GPU par rapport aux conteneurs Docker traditionnels.

Quelle solution est préférable pour les déploiements en production ?

Le Docker Model Runner et les solutions conteneurisées sont préférés en production en raison du support d’orchestration (Kubernetes), des limites de ressources, des vérifications d’état et de l’intégration de la surveillance. Ollama excelle dans le développement, la prototypage et les déploiements sur un seul serveur, où la simplicité est primordiale. Les deux sont prêts pour la production lorsqu’ils sont correctement configurés.

Puis-je utiliser Docker Hub pour distribuer des modèles avec Docker Model Runner ?

Oui ! Docker Model Runner empaquète les modèles en tant qu’artefacts OCI, permettant leur distribution via Docker Hub et d’autres registres conformes à OCI. Utilisez docker model package pour créer des artefacts de modèles partageables. Cela permet le contrôle de version, la gestion d’accès et des workflows Docker familiers pour la distribution des modèles.

Dois-je utiliser Docker Model Runner ou Ollama dans des conteneurs Docker ?

Docker Model Runner est la solution native de Docker, idéale pour les équipes déjà utilisant des workflows Docker. L’exécution d’Ollama dans des conteneurs Docker combine la simplicité d’Ollama avec l’orchestration de conteneurs. Choisissez DMR pour une intégration native avec Docker, ou les conteneurs Ollama si vous préférez l’interface de gestion des modèles d’Ollama associée aux capacités de déploiement de Docker.

Docker Model Runner vs Ollama : lequel choisir ?

Comparez Docker Model Runner et Ollama pour le LLM local

Exécuter des grands modèles de langage (LLMs) localement a devenu de plus en plus populaire pour la confidentialité, le contrôle des coûts et les capacités hors ligne. Le paysage a changé de manière significative en avril 2025 lorsque Docker a introduit Docker Model Runner (DMR), sa solution officielle pour le déploiement de modèles d’IA.

Maintenant, trois approches rivalisent pour l’attention des développeurs : le Model Runner natif de Docker, les solutions conteneurisées tierces (vLLM, TGI) et la plateforme autonome Ollama.

docker model runner windows

Comprendre les runners de modèles Docker

Les runners de modèles basés sur Docker utilisent la conteneurisation pour emballer les moteurs d’inférence des LLM avec leurs dépendances. Le paysage inclut à la fois la solution officielle de Docker et des cadres tiers.

Docker Model Runner (DMR) - Solution officielle

En avril 2025, Docker a introduit Docker Model Runner (DMR), un produit officiel conçu pour simplifier l’exécution de modèles d’IA localement à l’aide de l’infrastructure de Docker. Cela représente l’engagement de Docker à rendre le déploiement de modèles d’IA aussi fluide que le déploiement de conteneurs.

Fonctionnalités clés de DMR :

Intégration native Docker : Utilise les commandes familières de Docker (docker model pull, docker model run, docker model package)
Emballage en tant qu’artefact OCI : Les modèles sont emballés en tant qu’artefacts OCI, permettant leur distribution via Docker Hub et d’autres registres
API compatible OpenAI : Remplacement plug-and-play des points de terminaison OpenAI, simplifiant l’intégration
Accélération GPU : Support natif du GPU sans configuration complexe de nvidia-docker
Support du format GGUF : Fonctionne avec les formats de modèles quantifiés populaires
Intégration Docker Compose : Configurez et déployez facilement des modèles à l’aide des outils Docker standard
Support Testcontainers : Intégrez-vous sans problème aux cadres de test

Installation :

Docker Desktop : Activez-le via l’onglet AI dans les paramètres
Docker Engine : Installez le package docker-model-plugin

Exemple d’utilisation :

# Télécharger un modèle depuis Docker Hub
docker model pull ai/smollm2

# Exécuter l'inférence
docker model run ai/smollm2 "Expliquez Docker Model Runner"

# Emballer un modèle personnalisé
docker model package --gguf /chemin/vers/model.gguf --push myorg/mymodel:latest

DMR collabore avec Google, Hugging Face et VMware Tanzu pour élargir l’écosystème de modèles d’IA disponible via Docker Hub. Si vous êtes nouveau dans Docker ou si vous avez besoin d’un rappel sur les commandes Docker, notre feuille de calcul Docker fournit un guide complet des opérations Docker essentielles.

Solutions Docker tierces

Au-delà de DMR, l’écosystème inclut des cadres établis :

Conteneurs vLLM : Serveur d’inférence à haut débit optimisé pour le traitement par lots
Inférence de génération de texte (TGI) : Solution prête pour la production de Hugging Face
Conteneurs llama.cpp : Implémentation légère en C++ avec quantification
Conteneurs personnalisés : Emballage de PyTorch, Transformers ou de cadres propriétaires

Avantages de l’approche Docker

Flexibilité et indépendance du cadre : Les conteneurs Docker peuvent exécuter tout cadre LLM, de PyTorch à ONNX Runtime, donnant aux développeurs un contrôle complet sur la pile d’inférence.

Isolation des ressources : Chaque conteneur fonctionne dans des environnements isolés avec des limites de ressources définies (CPU, mémoire, GPU), empêchant les conflits de ressources dans les déploiements à plusieurs modèles.

Support d’orchestration : Docker s’intègre naturellement avec Kubernetes, Docker Swarm et les plateformes cloud pour l’échelle, le balancement de charge et la haute disponibilité.

Contrôle de version : Différentes versions de modèles ou de cadres peuvent coexister sur le même système sans conflits de dépendances.

Inconvénients de l’approche Docker

Complexité : Exige la compréhension de la conteneurisation, des montages de volumes, de la configuration réseau et du passage du GPU (nvidia-docker).

Surcoût : Bien que minime, Docker ajoute une couche d’abstraction légère qui affecte légèrement le temps de démarrage et l’utilisation des ressources.

Charge de configuration : Chaque déploiement nécessite une configuration soigneuse des Dockerfiles, des variables d’environnement et des paramètres d’exécution.

Comprendre Ollama

Ollama est une application conçue spécifiquement pour exécuter localement des LLM, conçue avec la simplicité comme principe fondamental. Il fournit :

Binaire natif pour Linux, macOS et Windows
Bibliothèque de modèles intégrée avec une installation en une seule commande
Détection et optimisation automatique du GPU
API RESTful compatible avec le format OpenAI
Gestion du contexte et de l’état des modèles

Avantages d’Ollama

Simplicité : L’installation est simple (curl | sh sur Linux), et l’exécution des modèles nécessite simplement ollama run llama2. Pour une liste complète des commandes Ollama et des schémas d’utilisation, consultez notre feuille de calcul Ollama.

Performance optimisée : Construit sur llama.cpp, Ollama est hautement optimisé pour la vitesse d’inférence avec le support de quantification (Q4, Q5, Q8).

Gestion des modèles : Registre de modèles intégré avec des commandes comme ollama pull, ollama list et ollama rm simplifiant le cycle de vie des modèles.

Expérience du développeur : API propre, documentation extensive et écosystème croissant d’intégrations (LangChain, CrewAI, etc.). La polyvalence d’Ollama s’étend à des cas d’utilisation spécialisés comme le classement des documents textuels avec des modèles d’embedding.

Efficacité des ressources : Gestion automatique de la mémoire et déchargement des modèles lors de l’inactivité pour économiser les ressources du système.

ollama ui

Inconvénients d’Ollama

Verrouillage du cadre : Principalement prend en charge les modèles compatibles avec llama.cpp, limitant la flexibilité pour les cadres comme vLLM ou les moteurs d’inférence personnalisés.

Limitation de personnalisation : Les configurations avancées (quantification personnalisée, flux CUDA spécifiques) sont moins accessibles que dans les environnements Docker.

Défis d’orchestration : Bien qu’Ollama puisse s’exécuter dans des conteneurs, il n’a pas de support natif pour les fonctionnalités avancées d’orchestration comme l’échelle horizontale.

Comparaison des performances

Vitesse d’inférence

Docker Model Runner : Performance comparable à Ollama car les deux prennent en charge les modèles quantifiés GGUF. Pour Llama 2 7B (Q4), prévoyez 20-30 tokens/seconde sur le CPU et 50-80 tokens/seconde sur les GPU de milieu de gamme. Surcoût conteneur minimal.

Ollama : Utilise un backend llama.cpp hautement optimisé avec une quantification efficace. Pour Llama 2 7B (Q4), prévoyez 20-30 tokens/seconde sur le CPU et 50-80 tokens/seconde sur les GPU de milieu de gamme. Aucun surcoût de conteneurisation. Pour plus de détails sur la manière dont Ollama gère les requêtes parallèles, consultez notre analyse sur comment Ollama gère les requêtes parallèles.

Docker (vLLM) : Optimisé pour le traitement par lots avec le batchage continu. Les requêtes individuelles peuvent être légèrement plus lentes, mais le débit excelle sous une charge élevée (100+ tokens/seconde par modèle avec le batchage).

Docker (TGI) : Similaire à vLLM avec une excellente performance de batchage. Ajoute des fonctionnalités comme le streaming et la génération token par token.

Utilisation de la mémoire

Docker Model Runner : Similaire à Ollama avec un chargement automatique des modèles. Les modèles GGUF Q4 utilisent généralement 4-6 Go de RAM. Le surcoût conteneur est minimal (des dizaines de Mo).

Ollama : Gestion automatique de la mémoire charge les modèles sur demande et les décharge lors de l’inactivité. Un modèle 7B Q4 utilise généralement 4-6 Go de RAM. Le plus efficace pour les scénarios à un seul modèle.

Solutions Docker traditionnelles : La mémoire dépend du cadre. vLLM alloue préalablement la mémoire GPU pour une performance optimale, tandis que les conteneurs basés sur PyTorch peuvent utiliser plus de RAM pour les poids du modèle et le cache KV (8-14 Go pour les modèles 7B).

Temps de démarrage

Docker Model Runner : Le démarrage du conteneur ajoute environ 1 seconde, plus le temps de chargement du modèle (2-5 secondes). Total : 3-6 secondes pour les modèles moyens.

Ollama : Démarrage quasi instantané avec le chargement du modèle prenant 2-5 secondes pour les modèles moyens. L’expérience de démarrage froide la plus rapide.

Docker traditionnel : Le démarrage du conteneur ajoute 1-3 secondes, plus le temps de chargement du modèle. Le préchauffage des conteneurs atténue cela dans les déploiements de production.

Comparaison directe entre Docker Model Runner et Ollama

Avec l’entrée officielle de Docker dans l’espace des runners LLM, la comparaison devient plus intéressante. Voici comment DMR et Ollama se comparent directement :

Fonction	Docker Model Runner	Ollama
Installation	Onglet AI de Docker Desktop ou `docker-model-plugin`	Une seule commande : `curl \| sh`
Style de commande	`docker model pull/run/package`	`ollama pull/run/list`
Format de modèle	GGUF (artefacts OCI)	GGUF (natif)
Distribution de modèles	Docker Hub, registres OCI	Registre Ollama
Configuration GPU	Automatique (plus simple que le Docker traditionnel)	Automatique
API	Compatible OpenAI	Compatible OpenAI
Intégration Docker	Native (c’est Docker)	S’exécute dans Docker si nécessaire
Support Compose	Native	Via l’image Docker
Courbe d’apprentissage	Faible (pour les utilisateurs Docker)	La plus faible (pour tout le monde)
Partenaires de l’écosystème	Google, Hugging Face, VMware	LangChain, CrewAI, Open WebUI
Meilleur pour	Les workflows natifs Docker	La simplicité autonome

Insight clé : DMR apporte les workflows Docker au déploiement des LLM, tandis qu’Ollama reste indépendant du cadre avec une opération autonome plus simple. Votre infrastructure existante compte plus que les différences techniques.

Recommandations pour les cas d’utilisation

Choisissez Docker Model Runner lorsque

Workflow Docker-first : Votre équipe utilise déjà Docker de manière extensive
Outils unifiés : Vous souhaitez un seul outil (Docker) pour les conteneurs et les modèles
Distribution d’artefacts OCI : Vous avez besoin d’une intégration de registre d’entreprise
Intégration Testcontainers : Vous testez les fonctionnalités d’IA dans les CI/CD
Préférence pour Docker Hub : Vous souhaitez distribuer les modèles via des canaux familiers

Choisissez Ollama lorsque

Prototypage rapide : Expérimentation rapide avec différents modèles
Indépendance du cadre : Non lié à l’écosystème Docker
Simplicité absolue : Configuration et maintenance minimales
Déploiements sur un seul serveur : Exécution sur des ordinateurs portables, des stations de travail ou des VM uniques
Grande bibliothèque de modèles : Accès à une vaste bibliothèque de modèles préconfigurés

Choisissez les solutions Docker tierces lorsque

Déploiements en production : Besoin d’orchestration et de surveillance avancés
Service multi-modèles : Exécution simultanée de différents cadres (vLLM, TGI)
Orchestration Kubernetes : Échelle sur des clusters avec équilibrage de charge
Cadres personnalisés : Utilisation de Ray Serve ou de moteurs d’inférence propriétaires
Contrôle strict des ressources : Application de limites granulaires de CPU/GPU par modèle

Approches hybrides : Le meilleur des deux mondes

Vous n’êtes pas limité à une seule approche. Considérez ces stratégies hybrides :

Option 1 : Docker Model Runner + Conteneurs traditionnels

Utilisez DMR pour les modèles standard et des conteneurs tiers pour les cadres spécialisés :

# Télécharger un modèle standard avec DMR
docker model pull ai/llama2

# Exécuter vLLM pour des scénarios à haut débit
docker run --gpus all vllm/vllm-openai

Option 2 : Ollama dans Docker

Exécutez Ollama dans des conteneurs Docker pour les capacités d’orchestration :

docker run -d \
  --name ollama \
  --gpus all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama

Cela fournit :

La gestion intuitive des modèles d’Ollama
Les capacités d’orchestration et d’isolation de Docker
Déploiement Kubernetes avec des manifestes standards

Option 3 : Mélanger et correspondre selon les cas d’utilisation

Développement : Ollama pour l’itération rapide
Environnement de test : Docker Model Runner pour les tests d’intégration
Production : vLLM/TGI dans Kubernetes pour l’échelle

Compatibilité API

Toutes les solutions modernes convergent vers des API compatibles avec OpenAI, simplifiant l’intégration :

API Docker Model Runner : Points de terminaison compatibles avec OpenAI servis automatiquement lors de l’exécution des modèles. Aucune configuration supplémentaire n’est nécessaire.

# Le modèle s'exécute avec l'API exposée automatiquement
docker model run ai/llama2

# Utilisez le point de terminaison compatible OpenAI
curl http://localhost:8080/v1/chat/completions -d '{
  "model": "llama2",
  "messages": [{"role": "user", "content": "Pourquoi le ciel est-il bleu ?"}]
}'

API Ollama : Les points de terminaison compatibles avec OpenAI en font un remplacement plug-and-play pour les applications utilisant le SDK OpenAI. Le streaming est pleinement pris en charge.

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "Pourquoi le ciel est-il bleu ?"
}'

API Docker tierces : vLLM et TGI offrent des points de terminaison compatibles avec OpenAI, tandis que les conteneurs personnalisés peuvent implémenter des API propriétaires.

La convergence sur la compatibilité OpenAI signifie que vous pouvez passer d’une solution à une autre avec des changements de code minimaux.

Gestion des ressources

Accélération GPU

Docker Model Runner : Support natif du GPU sans configuration complexe de nvidia-docker. Détecte et utilise automatiquement les GPU disponibles, simplifiant considérablement l’expérience GPU de Docker par rapport aux conteneurs traditionnels.

# L'accélération GPU fonctionne automatiquement
docker model run ai/llama2

Ollama : Détection automatique du GPU sur les GPU NVIDIA compatibles avec CUDA. Aucune configuration nécessaire au-delà de l’installation des pilotes.

Conteneurs Docker traditionnels : Requiert le runtime nvidia-docker et l’allocation explicite des GPU :

docker run --gpus all my-llm-container

Fallback CPU

Les deux passent gracieusement au CPU lorsqu’aucun GPU n’est disponible, bien que la performance diminue significativement (5 à 10 fois plus lente pour les grands modèles). Pour des informations sur les performances uniquement en CPU sur les processeurs modernes, lisez notre test sur comment Ollama utilise les performances du CPU Intel et les cœurs efficaces.

Support multi-GPU

Ollama : Prend en charge la parallélisation tensorielle sur plusieurs GPU pour les grands modèles.

Docker : Dépend du cadre. vLLM et TGI prennent en charge l’inférence multi-GPU avec la configuration appropriée.

Communauté et écosystème

Docker Model Runner : Lancé en avril 2025 avec un fort soutien d’entreprise. Les partenariats avec Google, Hugging Face et VMware Tanzu AI Solutions assurent une large disponibilité des modèles. L’intégration avec la communauté massive de développeurs de Docker (des millions d’utilisateurs) fournit un accès immédiat à l’écosystème. Les ressources spécifiques à la communauté sont encore en cours de construction en tant que nouveau produit.

Ollama : Communauté en croissance rapide avec plus de 50 000 étoiles sur GitHub. Écosystème d’intégration solide (LangChain, LiteLLM, Open WebUI, CrewAI) et communauté active sur Discord. Outils tiers et tutoriels extensifs disponibles. Documentation et ressources communautaires plus matures. Pour un aperçu complet des interfaces disponibles, consultez notre guide sur les interfaces de chat open-source pour les instances locales Ollama. Comme avec tout projet open-source en croissance rapide, il est important de surveiller la direction du projet - lisez notre analyse des premiers signes de l’enshittification d’Ollama pour comprendre les préoccupations potentielles.

Solutions Docker tierces : vLLM et TGI ont des écosystèmes matures avec un soutien d’entreprise. Études de cas de production, guides d’optimisation et schémas de déploiement étendus de Hugging Face et des contributeurs de la communauté.

Considérations de coût

Docker Model Runner : Gratuit avec Docker Desktop (personnel/éducationnel) ou Docker Engine. Docker Desktop nécessite un abonnement pour les grandes organisations (250+ employés ou 10 millions de dollars de revenus). Les modèles distribués via Docker Hub suivent les tarifs de registre de Docker (répertoires publics gratuits, répertoires privés payants).

Ollama : Complètement gratuit et open-source sans coûts de licence, indépendamment de la taille de l’organisation. Les coûts de ressources dépendent uniquement du matériel.

Solutions Docker tierces : Gratuites pour les cadres open-source (vLLM, TGI). Coûts potentiels pour les plateformes d’orchestration de conteneurs (ECS, GKE) et le stockage de registres privés.

Considérations de sécurité

Docker Model Runner : Utilise le modèle de sécurité de Docker avec l’isolation des conteneurs. Les modèles emballés en tant qu’artefacts OCI peuvent être analysés et signés. La distribution via Docker Hub permet le contrôle d’accès et l’analyse des vulnérabilités pour les utilisateurs d’entreprise.

Ollama : S’exécute en tant que service local avec l’API exposée sur localhost par défaut. L’exposition réseau nécessite une configuration explicite. Le registre de modèles est de confiance (curé par Ollama), réduisant les risques de chaîne d’approvisionnement.

Solutions Docker traditionnelles : L’isolation réseau est intégrée. L’analyse de sécurité des conteneurs (Snyk, Trivy) et la signature des images sont des pratiques standard dans les environnements de production.

Toutes les solutions nécessitent une attention à :

Origine des modèles : Les modèles non fiables peuvent contenir du code malveillant ou des backdoors
Authentification API : Implémentez l’authentification/autorisation dans les déploiements en production
Limitation de débit : Empêchez l’abus et l’épuisement des ressources
Exposition réseau : Assurez-vous que les API ne sont pas accidentellement exposées à Internet
Protection des données : Les modèles traitent des données sensibles ; assurez-vous de la conformité aux réglementations de protection des données

Chemins de migration

De Ollama vers Docker Model Runner

Le support GGUF de Docker Model Runner rend la migration simple :

Activez Docker Model Runner dans Docker Desktop ou installez le package docker-model-plugin
Convertissez les références de modèles : ollama run llama2 → docker model pull ai/llama2 et docker model run ai/llama2
Mettez à jour les points de terminaison API de localhost:11434 vers le point de terminaison DMR (généralement localhost:8080)
Les deux utilisent des API compatibles OpenAI, donc le code d’application nécessite des changements minimaux

De Docker Model Runner vers Ollama

Passer à Ollama pour une opération autonome plus simple :

Installez Ollama : curl -fsSL https://ollama.ai/install.sh | sh
Téléchargez les modèles équivalents : ollama pull llama2
Mettez à jour les points de terminaison API vers localhost:114线 d’Ollama
Testez avec ollama run llama2 pour vérifier la fonctionnalité

De conteneurs Docker traditionnels vers DMR

Simplifiez votre configuration LLM Docker :

Activez Docker Model Runner
Remplacez les Dockerfiles personnalisés par des commandes docker model pull
Supprimez la configuration nvidia-docker (DMR gère le GPU automatiquement)
Utilisez docker model run au lieu de commandes docker run complexes

De toute solution vers Ollama dans Docker

Approche combinant les deux :

docker pull ollama/ollama
Exécutez : docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
Utilisez les commandes Ollama comme d’habitude : docker exec -it ollama ollama pull llama2
Obtenez l’orchestration Docker avec la simplicité d’Ollama

Surveillance et observabilité

Ollama : Métriques de base via l’API (/api/tags, /api/ps). Des outils tiers comme Open WebUI fournissent des tableaux de bord.

Docker : Intégration complète avec Prometheus, Grafana, ELK stack et services de surveillance cloud. Les métriques de conteneur (CPU, mémoire, GPU) sont facilement disponibles.

Conclusion

Le paysage du déploiement local des LLM a considérablement évolué avec l’introduction par Docker de Docker Model Runner (DMR) en 2025. Le choix dépend maintenant de vos besoins spécifiques :

Pour les développeurs recherchant une intégration Docker : DMR fournit une intégration native des workflows Docker avec les commandes docker model
Pour la simplicité maximale : Ollama reste la solution la plus simple avec sa gestion des modèles en une seule commande
Pour la production et l’entreprise : À la fois DMR et les solutions tierces (vLLM, TGI) dans Docker offrent l’orchestration, la surveillance et l’échelle
Pour le meilleur des deux : Exécutez Ollama dans des conteneurs Docker pour combiner la simplicité avec l’infrastructure de production

L’introduction de DMR réduit le fossé entre Docker et Ollama en termes d’ergonomie. Ollama gagne toujours sur la simplicité pour le prototypage rapide, tandis que DMR excelle pour les équipes déjà investies dans les workflows Docker. Les deux approches sont activement développées, prêtes pour la production, et l’écosystème est suffisamment mûr pour que le passage entre elles soit relativement indolore.

En résumé : Si vous utilisez intensivement Docker, DMR est le choix naturel. Si vous souhaitez l’expérience la plus simple possible, indépendamment de l’infrastructure, choisissez Ollama.