Ollama Cheatsheet - commandes les plus utiles
J'ai compilé cette liste de commandes Ollama il y a un certain temps...
Voici la liste et les exemples des commandes Ollama les plus utiles (fiche de commandes Ollama) que j’ai compilées il y a un certain temps. J’espère qu’elles vous seront également utiles.

Cette fiche de commandes Ollama se concentre sur les commandes CLI, la gestion des modèles et la personnalisation, mais nous avons également ici quelques appels curl.
Installation
- Option 1 : Télécharger depuis le site web
- Visitez ollama.com et téléchargez l’installeur pour votre système d’exploitation (Mac, Linux ou Windows).
- Option 2 : Installer via la ligne de commande
- Pour les utilisateurs Mac et Linux, utilisez la commande :
curl https://ollama.ai/install.sh | sh
- Suivez les instructions à l’écran et entrez votre mot de passe si nécessaire.
Configuration système
- Système d’exploitation : Mac ou Linux (version Windows en développement)
- Mémoire (RAM) : 8 Go minimum, 16 Go ou plus recommandé
- Espace de stockage : Au moins ~10 Go d’espace libre (les fichiers de modèles peuvent être très volumineux, consultez ici davantage Déplacer les modèles Ollama vers un autre disque)
- Processeur : Un processeur relativement récent (des dernières 5 années).
Commandes CLI Ollama de base
| Commande | Description |
|---|---|
ollama serve |
Démarrer Ollama sur votre système local. |
ollama create <new_model> |
Créer un nouveau modèle à partir d’un modèle existant pour la personnalisation ou l’entraînement. |
ollama show <model> |
Afficher les détails d’un modèle spécifique, tels que sa configuration et sa date de publication. |
ollama run <model> |
Exécuter le modèle spécifié, le rendant prêt à l’interaction. |
ollama pull <model> |
Télécharger le modèle spécifié sur votre système. |
ollama list |
Lister tous les modèles téléchargés. Le même que ollama ls |
ollama ps |
Afficher les modèles en cours d’exécution. |
ollama stop <model> |
Arrêter le modèle spécifié en cours d’exécution. |
ollama rm <model> |
Supprimer le modèle spécifié de votre système. |
ollama help |
Fournir de l’aide sur toute commande. |
Gestion des modèles
-
Télécharger un modèle :
ollama pull mistral-nemo:12b-instruct-2407-q6_KCette commande télécharge le modèle spécifié (par exemple, Gemma 2B ou mistral-nemo:12b-instruct-2407-q6_K) sur votre système. Les fichiers de modèles peuvent être très volumineux, donc surveillez l’espace utilisé par les modèles sur le disque dur, ou ssd. Vous pourriez même vouloir déplacer tous les modèles Ollama de votre répertoire personnel vers un autre disque plus grand et plus performant
-
Exécuter un modèle :
ollama run qwen2.5:32b-instruct-q3_K_SCette commande démarre le modèle spécifié et ouvre un REPL interactif pour l’interaction.
-
Lister les modèles :
ollama listle même que :
ollama lsCette commande liste tous les modèles téléchargés sur votre système, comme
$ ollama ls NOM ID TAILLE MODIFIÉ deepseek-r1:8b 6995872bfe4c 5,2 Go 2 semaines plus tôt gemma3:12b-it-qat 5d4fa005e7bb 8,9 Go 2 semaines plus tôt LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 Go 3 semaines plus tôt dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 Go 4 semaines plus tôt dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 Go 4 semaines plus tôt qwen3:8b 500a1f067a9f 5,2 Go 5 semaines plus tôt qwen3:14b bdbd181c33f2 9,3 Go 5 semaines plus tôt qwen3:30b-a3b 0b28110b7a33 18 Go 5 semaines plus tôt devstral:24b c4b2fa0c33d7 14 Go 5 semaines plus tôt -
Arrêter un modèle :
ollama stop llama3.1:8b-instruct-q8_0Cette commande arrête le modèle spécifié en cours d’exécution.
Libérer un modèle de la VRAM
Lorsqu’un modèle est chargé en VRAM (mémoire du GPU), il reste là même après avoir terminé son utilisation. Pour libérer explicitement un modèle de la VRAM et libérer de la mémoire du GPU, vous pouvez envoyer une requête à l’API Ollama avec keep_alive: 0.
- Libérer un modèle de la VRAM avec curl :
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Remplacez MODELNAME par le nom réel de votre modèle, par exemple :
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Libérer un modèle de la VRAM avec Python :
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Cela est particulièrement utile lorsque :
- Vous avez besoin de libérer de la mémoire GPU pour d’autres applications
- Vous exécutez plusieurs modèles et souhaitez gérer l’utilisation de la VRAM
- Vous avez terminé d’utiliser un grand modèle et souhaitez libérer les ressources immédiatement
Note : Le paramètre keep_alive contrôle pendant combien de temps (en secondes) un modèle reste chargé en mémoire après la dernière requête. Le définir à 0 décharge immédiatement le modèle de la VRAM.
Personnalisation des modèles
-
Définir un prompt système : À l’intérieur du REPL Ollama, vous pouvez définir un prompt système pour personnaliser le comportement du modèle :
>>> /set system Pour toutes les questions posées, répondez en anglais simple en évitant autant que possible le jargon technique >>> /save ipe >>> /byeEnsuite, exécutez le modèle personnalisé :
ollama run ipeCela définit un prompt système et sauvegarde le modèle pour une utilisation future.
-
Créer un fichier de modèle personnalisé : Créez un fichier texte (par exemple,
custom_model.txt) avec la structure suivante :FROM llama3.1 SYSTEM [Vos instructions personnalisées ici]Ensuite, exécutez :
ollama create mymodel -f custom_model.txt ollama run mymodelCela crée un modèle personnalisé basé sur les instructions du fichier.
Utilisation d’Ollama avec des fichiers
-
Résumer le texte d’un fichier :
ollama run llama3.2 "Résumez le contenu de ce fichier en 50 mots." < input.txtCette commande résume le contenu de
input.txtà l’aide du modèle spécifié. -
Enregistrer les réponses du modèle dans un fichier :
ollama run llama3.2 "Dites-moi sur les énergies renouvelables." > output.txtCette commande enregistre la réponse du modèle dans
output.txt.
Cas d’utilisation courants
-
Génération de texte :
- Résumer un grand fichier texte :
ollama run llama3.2 "Résumez le texte suivant :" < long-document.txt - Générer du contenu :
ollama run llama3.2 "Écrivez un court article sur les avantages d'utiliser l'IA en santé." > article.txt - Répondre à des questions spécifiques :
ollama run llama3.2 "Quelles sont les dernières tendances en IA, et comment vont-elles affecter la santé ?"
.
- Résumer un grand fichier texte :
-
Traitement et analyse des données :
- Classer le texte en positif, négatif ou neutre :
ollama run llama3.2 "Analysez le sentiment de ce commentaire client : 'Le produit est fantastique, mais la livraison était lente.'" - Catégoriser le texte dans des catégories prédéfinies : Utilisez des commandes similaires pour classer ou catégoriser le texte selon des critères prédéfinis.
- Classer le texte en positif, négatif ou neutre :
Utilisation d’Ollama avec Python
- Installer la bibliothèque Python Ollama :
pip install ollama - Générer du texte à l’aide de Python :
Ce fragment de code génère du texte à l’aide du modèle et du prompt spécifiés.
import ollama response = ollama.generate(model='gemma:2b', prompt='qu'est-ce qu'un qubit ?') print(response['response'])
Liens utiles
- Comparaison des assistants de codage IA
- Déplacer les modèles Ollama vers un autre disque ou dossier
- Comment Ollama gère les requêtes parallèles
- Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces
- Test de Deepseek-r1 sur Ollama
- Fiche de raccourcis Bash
- Modèles Qwen3 Embedding & Reranker sur Ollama : performance d’avant-garde