Feuille de rappel de la CLI Ollama : ls, serve, run, ps + commandes (mise à jour 2026)
Liste mise à jour des commandes Ollama - ls, ps, run, serve, etc.
Ce Ollama CLI cheatsheet se concentre sur les commandes que vous utilisez tous les jours (ollama ls, ollama serve, ollama run, ollama ps, gestion des modèles et flux de travail courants), avec des exemples que vous pouvez copier/coller.
Il inclut également une courte section intitulée « paramètres de performance » pour vous aider à découvrir (et ensuite à explorer en détail) OLLAMA_NUM_PARALLEL et les paramètres associés.

Ce Ollama cheatsheet se concentre sur les commandes CLI, la gestion des modèles et la personnalisation, Mais nous avons également ici quelques appels curl .
Pour avoir une vue d’ensemble de la place qu’Ollama occupe parmi les options locales, auto-hébergées et cloud — y compris vLLM, Docker Model Runner, LocalAI et les fournisseurs cloud — consultez LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Si vous comparez différentes solutions d’hébergement local des LLM, consultez notre comparaison approfondie d’Ollama, vLLM, LocalAI, Jan, LM Studio et plus. Pour ceux qui cherchent des alternatives aux interfaces en ligne de commande, Docker Model Runner propose une approche différente pour le déploiement des LLM.
Installation d’Ollama (téléchargement et installation CLI)
- Option 1 : Télécharger depuis le site web
- Rendez-vous sur ollama.com et téléchargez l’installeur pour votre système d’exploitation (Mac, Linux ou Windows).
- Option 2 : Installer via la ligne de commande
- Pour les utilisateurs Mac et Linux, utilisez la commande :
curl https://ollama.ai/install.sh | sh
- Suivez les instructions à l’écran et entrez votre mot de passe si nécessaire.
Exigences système d’Ollama (RAM, stockage, CPU)
- Système d’exploitation : Mac ou Linux (version Windows en développement)
- Mémoire (RAM) : 8 Go minimum, 16 Go ou plus recommandé
- Stockage : Au moins ~10 Go d’espace libre (les fichiers de modèle peuvent être très volumineux, consultez ici davantage Déplacer les modèles Ollama vers un autre disque )
- Processeur : Un processeur relativement moderne (des dernières 5 années). Si vous êtes curieux de savoir comment Ollama utilise différentes architectures de processeurs, consultez notre analyse de comment Ollama utilise les performances et les cœurs efficaces des processeurs Intel.
Pour des charges de travail d’IA importantes, vous pourriez vouloir comparer les options matérielles. Nous avons benchmarké NVIDIA DGX Spark vs Mac Studio vs RTX-4080 performance avec Ollama, et si vous envisagez d’investir dans un matériel haut de gamme, notre comparaison des prix et des capacités de DGX Spark fournit une analyse détaillée des coûts.
Commandes CLI Ollama de base
| Commande | Description |
|---|---|
ollama serve |
Démarrer Ollama sur votre système local. |
ollama create <new_model> |
Créer un nouveau modèle à partir d’un modèle existant pour la personnalisation ou l’entraînement. |
ollama show <model> |
Afficher les détails d’un modèle spécifique, tels que sa configuration et sa date de publication. |
ollama run <model> |
Exécuter le modèle spécifié, le rendant prêt à l’interaction. |
ollama pull <model> |
Télécharger le modèle spécifié sur votre système. |
ollama list |
Liste tous les modèles téléchargés. Le même que ollama ls |
ollama ps |
Affiche les modèles en cours d’exécution. |
ollama stop <model> |
Arrête le modèle spécifié en cours d’exécution. |
ollama rm <model> |
Supprime le modèle spécifié de votre système. |
ollama help |
Fournit de l’aide sur toute commande. |
Liens rapides : Commande ollama serve · Commande ollama run · Commande ollama ps · Bases du CLI Ollama · Paramètres de performance (OLLAMA_NUM_PARALLEL) · Analyse approfondie des demandes parallèles
CLI Ollama (qu’est-ce que c’est)
Ollama CLI est l’interface en ligne de commande pour gérer les modèles et les exécuter/les servir localement. La plupart des workflows se réduisent à :
- Démarrer le serveur :
ollama serve - Exécuter un modèle :
ollama run <model> - Voir ce qui est chargé/chargé :
ollama ps - Gérer les modèles :
ollama pull,ollama list,ollama rm
Gestion des modèles Ollama : commandes pull et list
Lister les modèles :
ollama list
le même que :
ollama ls
Cette commande liste tous les modèles qui ont été téléchargés sur votre système, avec leur taille de fichiers sur votre hdd/sdd, comme
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5,2 GB 2 semaines plus tôt
gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 semaines plus tôt
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semaines plus tôt
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 semaines plus tôt
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 semaines plus tôt
qwen3:8b 500a1f067a9f 5,2 GB 5 semaines plus tôt
qwen3:14b bdbd181c33f2 9,3 GB 5 semaines plus tôt
qwen3:30b-a3b 0b28110b7a33 18 GB 5 semaines plus tôt
devstral:24b c4b2fa0c33d7 14 GB 5 semaines plus tôt
Télécharger un modèle : ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Cette commande télécharge le modèle spécifié (par exemple, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) sur votre système. Les fichiers de modèle peuvent être très volumineux, donc surveillez l’espace utilisé par les modèles sur le disque dur, ou ssd. Vous pourriez même vouloir déplacer tous les modèles Ollama de votre répertoire personnel vers un autre disque plus grand et plus performant
Commande ollama serve
ollama serve démarre le serveur local Ollama (port HTTP par défaut 11434).
ollama serve
“ollama serve” commande (exemple compatible avec systemd) :
# définir les variables d'environnement, puis démarrer le serveur
# rendre ollama disponible sur l'adresse IP de l'hôte
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Commande ollama run
Exécuter un modèle :
ollama run gpt-oss:20b
Cette commande démarre le modèle spécifié et ouvre une session interactive REPL pour l’interaction. Souhaitez-vous comprendre comment Ollama gère les demandes simultanées ? En savoir plus sur comment Ollama gère les demandes parallèles dans notre analyse détaillée.
ollama run exécute un modèle en session interactive,
donc dans le cas de gpt-oss:120b vous verriez quelque chose comme
$ ollama run gpt-oss:120b
>>> Envoyez un message (/? pour l'aide)
vous pouvez taper vos questions ou commandes et le modèle répondra.
>>> qui êtes-vous ?
Pensée...
L'utilisateur demande "qui êtes-vous ?" Question simple. Devrait répondre comme ChatGPT, un modèle de langage IA, entraîné par OpenAI,
etc. Fournir une introduction brève. Probablement demander s'ils ont besoin d'aide.
...fin de la pensée.
Je suis ChatGPT, un modèle de langage IA créé par OpenAI. J'ai été entraîné sur une large gamme de textes afin de pouvoir aider
répondre aux questions, brainstormer des idées, expliquer des concepts, rédiger des textes, résoudre des problèmes, et bien plus encore. Pensez
à moi comme à un assistant virtuel polyvalent—ici pour fournir des informations, du soutien et des conversations quand vous en avez besoin
en ce moment. Comment puis-je vous aider aujourd'hui ?
>>> Envoyez un message (/? pour l'aide)
Pour quitter la session interactive ollama, appuyez sur Ctrl+D, ou vous pouvez taper /bye, le même résultat :
>>> /bye
$
Exemples de commande ollama run
Pour exécuter un modèle et poser une seule question en mode non interactif :
printf "Donnez-moi 10 lignes d'une commande bash pour l'analyse des journaux.\n" | ollama run llama3.2
Si vous souhaitez voir une réponse détaillée du LLM dans la session ollama - exécutez le modèle avec --verbose ou -v paramètre :
$ ollama run gpt-oss:20b --verbose
>>> qui êtes-vous ?
Pensée...
Nous devons répondre à une question simple : "qui êtes-vous ?" L'utilisateur demande "qui êtes-vous ?" Nous pouvons répondre que nous
sommes ChatGPT, un grand modèle de langage entraîné par OpenAI. Nous pouvons également mentionner les capacités. L'utilisateur attend probablement
une introduction brève. Nous le garderons amical.
...fin de la pensée.
Je suis ChatGPT, un grand modèle de langage créé par OpenAI. Je suis ici pour aider à répondre aux questions, à offrir des explications,
à brainstormer des idées et à discuter de nombreux sujets—de la science et de l'histoire à l'écriture créative et aux conseils du quotidien. N'hésitez pas
à me dire ce que vous aimeriez discuter !
durée totale : 1,118585707s
durée de chargement : 106,690543ms
nombre de tokens d'évaluation du prompt : 71 token(s)
durée d'évaluation du prompt : 30,507392ms
taux d'évaluation du prompt : 2327,30 tokens/s
nombre de tokens d'évaluation : 132 token(s)
durée d'évaluation : 945,801569ms
taux d'évaluation : 139,56 tokens/s
>>> /bye
$
Oui, c’est bien, c’est 139 tokens par seconde. Le gpt-oss:20b est très rapide. Si vous, comme moi, avez un GPU avec 16 Go de VRAM - consultez les détails de la comparaison de vitesse des LLM dans Meilleurs LLM pour Ollama sur un GPU avec 16 Go de VRAM.
Conseil : Si vous souhaitez que le modèle soit disponible via HTTP pour plusieurs applications, démarrez le serveur avec ollama serve et utilisez le client API au lieu de longues sessions interactives.
Commande ollama stop
Cette commande arrête le modèle spécifié en cours d’exécution.
ollama stop llama3.1:8b-instruct-q8_0
Ollama évictes les modèles automagiquement après un certain temps.
Vous pouvez spécifier ce temps, la valeur par défaut est 4 minutes.
Si vous ne souhaitez pas attendre le temps restant, vous pouvez utiliser cette commande ollama stop.
Vous pouvez également expulser le modèle de la VRAM en appelant le point de terminaison de l’API /generate avec le paramètre keep_alive=0, voir ci-dessous pour la description et l’exemple.
Commande ollama ps
ollama ps affiche les modèles et les sessions en cours d’exécution (utile pour déboguer « pourquoi ma VRAM est pleine ? »).
ollama ps
Un exemple de la sortie de ollama ps est ci-dessous :
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutes from now
Vous voyez ici sur mon PC que le gpt-oss:20b s’adapte très bien à ma VRAM de 16 Go du GPU et occupe seulement 14 Go.
Si j’exécute ollama run gpt-oss:120b puis appelle ollama ps, le résultat ne sera pas aussi positif :
78 % des couches sont sur le CPU, et cela est juste avec une fenêtre de contexte de 4096 tokens. Ce sera pire si j’ai besoin d’augmenter le contexte.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutes from now
Paramètres de performance (OLLAMA_NUM_PARALLEL)
Si vous voyez des files d’attente ou des dépassements de délai sous charge, le premier paramètre à apprendre est OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= nombre de demandes que Ollama exécute en parallèle.- Une valeur plus élevée peut augmenter le débit, mais peut augmenter la pression sur la VRAM et les pics de latence.
Exemple rapide :
OLLAMA_NUM_PARALLEL=2 ollama serve
Pour une explication complète (y compris les stratégies de réglage et les modes d’échec), voir :
Libérer un modèle Ollama de la VRAM (keep_alive)
Lorsqu’un modèle est chargé en VRAM (mémoire du GPU), il reste là même après avoir fini de l’utiliser. Pour libérer explicitement un modèle de la VRAM et libérer la mémoire du GPU, vous pouvez envoyer une requête à l’API Ollama avec keep_alive: 0.
- Libérer un modèle de la VRAM avec curl :
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Remplacez MODELNAME par le nom réel de votre modèle, par exemple :
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Libérer un modèle de la VRAM avec Python :
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Cela est particulièrement utile lorsque :
- Vous avez besoin de libérer de la mémoire GPU pour d’autres applications
- Vous exécutez plusieurs modèles et souhaitez gérer l’utilisation de la VRAM
- Vous avez terminé d’utiliser un grand modèle et souhaitez libérer les ressources immédiatement
Note : Le paramètre keep_alive contrôle pendant combien de temps (en secondes) un modèle reste chargé en mémoire après la dernière requête. Le fixer à 0 décharge immédiatement le modèle de la VRAM.
Personnalisation des modèles Ollama (prompt système, Modelfile)
-
Définir le prompt système : À l’intérieur de l’interpréteur Ollama, vous pouvez définir un prompt système pour personnaliser le comportement du modèle :
>>> /set system Pour toutes les questions posées, répondez en anglais simple en évitant autant que possible le jargon technique >>> /save ipe >>> /byeEnsuite, exécutez le modèle personnalisé :
ollama run ipeCela définit un prompt système et sauvegarde le modèle pour une utilisation future.
-
Créer un fichier de modèle personnalisé : Créez un fichier texte (par exemple,
custom_model.txt) avec la structure suivante :FROM llama3.1 SYSTEM [Vos instructions personnalisées ici]Ensuite, exécutez :
ollama create mymodel -f custom_model.txt ollama run mymodelCela crée un modèle personnalisé basé sur les instructions du fichier".
Utilisation de la commande ollama run avec des fichiers (résumé, redirection)
-
Résumer le texte d’un fichier :
ollama run llama3.2 "Résumez le contenu de ce fichier en 50 mots." < input.txtCette commande résume le contenu de
input.txtà l’aide du modèle spécifié. -
Enregistrer les réponses du modèle dans un fichier :
ollama run llama3.2 "Dites-moi sur les énergies renouvelables." > output.txtCette commande enregistre la réponse du modèle dans
output.txt.
Cas d’utilisation du CLI Ollama (génération de texte, analyse)
-
Génération de texte :
- Résumer un grand fichier texte :
ollama run llama3.2 "Résumez le texte suivant :" < long-document.txt - Générer du contenu :
ollama run llama3.2 "Écrivez un court article sur les avantages de l'utilisation de l'IA dans la santé." > article.txt - Répondre à des questions spécifiques :
ollama run llama3.2 "Quelles sont les dernières tendances en IA, et comment vont-elles affecter la santé ?"
.
- Résumer un grand fichier texte :
-
Traitement et analyse des données :
- Classer le texte en positif, négatif ou neutre :
ollama run llama3.2 "Analysez le sentiment de ce commentaire client : 'Le produit est fantastique, mais la livraison était lente.'" - Catégoriser le texte dans des catégories prédéfinies : Utilisez des commandes similaires pour classer ou catégoriser le texte selon des critères prédéfinis.
- Classer le texte en positif, négatif ou neutre :
Utilisation d’Ollama avec Python (client et API)
- Installer la bibliothèque Python Ollama :
pip install ollama - Générer du texte à l’aide de Python :
Ce fragment de code génère du texte à l’aide du modèle et du prompt spécifiés.
import ollama response = ollama.generate(model='gemma:2b', prompt='qu'est-ce qu'un qubit ?') print(response['response'])
Pour une intégration avancée avec Python, explorez l’utilisation de l’API Web Search d’Ollama en Python, qui couvre les capacités de recherche web, l’appel d’outils et l’intégration avec les serveurs MCP. Si vous construisez des applications alimentées par l’IA, notre comparaison des assistants de codage IA peut vous aider à choisir les bons outils pour le développement.
Vous cherchez une interface basée sur le web ? Open WebUI fournit une interface auto-hébergée avec des capacités RAG et un support multi-utilisateurs. Pour les déploiements de production à haute performance, envisagez vLLM comme alternative. Pour comparer Ollama avec d’autres choix d’infrastructure locale et cloud pour les LLM, consultez LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Liens utiles
Configuration et gestion
Alternatives et comparaisons
- Hébergement local des LLM : Guide complet 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Plus
- Démarrage rapide vLLM : Hébergement de LLM à haute performance
- Docker Model Runner vs Ollama : Lequel choisir ?
- Premiers signes de l’enshittification d’Ollama
Performance et matériel
- Comment Ollama gère les demandes parallèles
- Comment Ollama utilise les performances et les cœurs efficaces des processeurs Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison de performance d’Ollama
- DGX Spark vs. Mac Studio : Un aperçu pratique, vérifié par les prix, de la superordinateur d’IA personnel de NVIDIA
Intégration et développement
- Utilisation de l’API Web Search d’Ollama en Python
- Comparaison des assistants de codage IA
- Open WebUI : Interface web auto-hébergée pour les LLM
- Interfaces de chat open source pour les LLM sur les instances locales Ollama
- Contraindre les LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go
- Intégrer Ollama avec Python : Exemples d’API REST et de client Python
- SDK Go pour Ollama - comparaison avec des exemples