Ollama Cheatsheet - Perintah yang paling berguna
Saya pernah mengumpulkan daftar perintah Ollama beberapa waktu lalu...
Berikut adalah daftar dan contoh dari perintah Ollama yang paling berguna (cheatsheet perintah Ollama) Saya telah mengumpulkan beberapa waktu yang lalu. Semoga juga akan berguna bagi Anda kepada Anda.

Cheatsheet Ollama ini berfokus pada perintah CLI, manajemen model, dan penyesuaian, Namun di sini kita juga memiliki beberapa curl panggilan juga.
Instalasi
- Opsi 1: Unduh dari Situs Web
- Kunjungi ollama.com dan unduh penginstal untuk sistem operasi Anda (Mac, Linux, atau Windows).
- Opsi 2: Instal melalui Baris Perintah
- Untuk pengguna Mac dan Linux, gunakan perintah:
curl https://ollama.ai/install.sh | sh
- Ikuti instruksi di layar dan masukkan kata sandi Anda jika diminta.
Persyaratan Sistem
- Sistem Operasi: Mac atau Linux (versi Windows sedang dalam pengembangan)
- Memori (RAM): Minimal 8GB, direkomendasikan 16GB atau lebih
- Penyimpanan: Setidaknya ~10GB ruang bebas (file model bisa sangat besar, lihat lebih lanjut Pindahkan Model Ollama ke Drive Berbeda )
- Prosesor: CPU yang relatif modern (dari 5 tahun terakhir).
Perintah Dasar CLI Ollama
| Perintah | Deskripsi |
|---|---|
ollama serve |
Memulai Ollama di sistem lokal Anda. |
ollama create <new_model> |
Membuat model baru dari model yang sudah ada untuk penyesuaian atau pelatihan. |
ollama show <model> |
Menampilkan detail tentang model tertentu, seperti konfigurasinya dan tanggal rilis. |
ollama run <model> |
Menjalankan model yang ditentukan, sehingga siap untuk interaksi. |
ollama pull <model> |
Mendownload model yang ditentukan ke sistem Anda. |
ollama list |
Menampilkan semua model yang diunduh. Sama seperti ollama ls |
ollama ps |
Menampilkan model yang sedang berjalan saat ini. |
ollama stop <model> |
Menghentikan model yang sedang berjalan yang ditentukan. |
ollama rm <model> |
Menghapus model yang ditentukan dari sistem Anda. |
ollama help |
Memberikan bantuan tentang perintah apa pun. |
Manajemen Model
-
Unduh Model:
ollama pull mistral-nemo:12b-instruct-2407-q6_KPerintah ini mengunduh model yang ditentukan (misalnya, Gemma 2B, atau mistral-nemo:12b-instruct-2407-q6_K) ke sistem Anda. File model bisa sangat besar, jadi perhatikan ruang yang digunakan oleh model di hard drive atau SSD. Anda mungkin bahkan ingin memindahkan semua model Ollama dari direktori rumah Anda ke drive yang lebih besar dan lebih baik
-
Jalankan Model:
ollama run qwen2.5:32b-instruct-q3_K_SPerintah ini memulai model yang ditentukan dan membuka REPL interaktif untuk interaksi.
-
Daftar Model:
ollama listyang sama dengan:
ollama lsPerintah ini menampilkan semua model yang telah diunduh ke sistem Anda, seperti
$ ollama ls NAMA ID UKURAN MODIFIED deepseek-r1:8b 6995872bfe4c 5,2 GB 2 minggu yang lalu gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 minggu yang lalu LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 minggu yang lalu dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 minggu yang lalu dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 minggu yang lalu qwen3:8b 500a1f067a9f 5,2 GB 5 minggu yang lalu qwen3:14b bdbd181c33f2 9,3 GB 5 minggu yang lalu qwen3:30b-a3b 0b28110b7a33 18 GB 5 minggu yang lalu devstral:24b c4b2fa0c33d7 14 GB 5 minggu yang lalu -
Hentikan Model:
ollama stop llama3.1:8b-instruct-q8_0Perintah ini menghentikan model yang sedang berjalan yang ditentukan.
Melepaskan Model dari VRAM
Ketika model dimuat ke VRAM (memori GPU), model tersebut tetap berada di sana bahkan setelah Anda selesai menggunakan model tersebut. Untuk melepaskan model dari VRAM dan membebaskan memori GPU secara eksplisit, Anda dapat mengirimkan permintaan ke API Ollama dengan keep_alive: 0.
- Melepaskan Model dari VRAM menggunakan curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Ganti MODELNAME dengan nama model sebenarnya Anda, misalnya:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Melepaskan Model dari VRAM menggunakan Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Ini sangat berguna ketika:
- Anda perlu membebaskan memori GPU untuk aplikasi lain
- Anda menjalankan beberapa model dan ingin mengelola penggunaan VRAM
- Anda selesai menggunakan model besar dan ingin melepaskan sumber daya segera
Catatan: Parameter keep_alive mengontrol seberapa lama (dalam detik) model tetap dimuat dalam memori setelah permintaan terakhir. Menyetelnya ke 0 segera melepaskan model dari VRAM.
Menyesuaikan Model
-
Atur Prompt Sistem: Di dalam REPL Ollama, Anda dapat mengatur prompt sistem untuk menyesuaikan perilaku model:
>>> /set system Untuk semua pertanyaan yang diajukan, jawab dalam bahasa Inggris sederhana sebisa mungkin menghindari jargon teknis >>> /save ipe >>> /byeLalu, jalankan model yang disesuaikan:
ollama run ipeIni mengatur prompt sistem dan menyimpan model untuk penggunaan di masa depan.
-
Buat File Model Khusus: Buat file teks (misalnya,
custom_model.txt) dengan struktur berikut:DARI llama3.1 SISTEM [Instruksi khusus Anda di sini]Lalu, jalankan:
ollama create mymodel -f custom_model.txt ollama run mymodelIni menciptakan model yang disesuaikan berdasarkan instruksi dalam file tersebut.
Menggunakan Ollama dengan File
-
Ringkaskan Teks dari File:
ollama run llama3.2 "Ringkas isi file ini dalam 50 kata." < input.txtPerintah ini merangkum isi
input.txtmenggunakan model yang ditentukan. -
Catat Respons Model ke File:
ollama run llama3.2 "Ceritakan tentang energi terbarukan." > output.txtPerintah ini menyimpan respons model ke
output.txt.
Kasus Penggunaan Umum
-
Penghasilan Teks:
- Merangkum file teks besar:
ollama run llama3.2 "Ringkas teks berikut:" < long-document.txt - Menghasilkan konten:
ollama run llama3.2 "Tulis artikel pendek tentang manfaat menggunakan AI dalam kesehatan." > article.txt - Menjawab pertanyaan spesifik:
ollama run llama3.2 "Apa tren terbaru dalam AI, dan bagaimana akan memengaruhi kesehatan?"
.
- Merangkum file teks besar:
-
Pemrosesan dan Analisis Data:
- Mengklasifikasikan teks menjadi sentimen positif, negatif, atau netral:
ollama run llama3.2 "Analisis sentimen ulasan pelanggan: 'Produk ini luar biasa, tetapi pengiriman lambat.'" - Mengkategorikan teks ke dalam kategori yang ditentukan sebelumnya: Gunakan perintah serupa untuk mengklasifikasikan atau mengkategorikan teks berdasarkan kriteria yang ditentukan sebelumnya.
- Mengklasifikasikan teks menjadi sentimen positif, negatif, atau netral:
Menggunakan Ollama dengan Python
- Instal Perpustakaan Python Ollama:
pip install ollama - Hasilkan Teks Menggunakan Python:
Snippet kode ini menghasilkan teks menggunakan model dan prompt yang ditentukan.
import ollama response = ollama.generate(model='gemma:2b', prompt='Apa itu qubit?') print(response['response'])