Ollama CLI-snabbguide: ls, serve, run, ps + kommandon (uppdatering 2026)
Uppdaterad lista över Ollama-kommandon - ls, ps, run, serve, osv
Detta Ollama CLI cheat sheet fokuserar på kommandon du använder varje dag (ollama ls, ollama serve, ollama run, ollama ps, modellhantering och vanliga arbetsflöden), med exempel som du kan kopiera och klistra in.
Det inkluderar också en kort “prestanda justeringar”-sektion för att hjälpa dig upptäcka (och sedan dyka in i) OLLAMA_NUM_PARALLEL och relaterade inställningar.

Den här Ollama cheat sheeten fokuserar på CLI-kommandon, modellhantering och anpassning, men vi har också några curl anrop här.
För en komplett bild av var Ollama passar in bland lokala, självvärdbaserade och molnalternativ – inklusive vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM Hosting: Lokal, självvärdbaserad & molninfrastruktur jämförd. Om du jämför olika lokala LLM-värdalternativ, kontrollera vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandoradsgränssnitt, Docker Model Runner erbjuder en annan metod för LLM-distribution.
Ollama installation (ladda ner och CLI-installation)
- Alternativ 1: Ladda ner från hemsidan
- Besök ollama.com och ladda ner installationsprogrammet för din operativsystem (Mac, Linux eller Windows).
- Alternativ 2: Installera via kommandorad
- För Mac- och Linux-användare, använd kommandot:
curl https://ollama.ai/install.sh | sh
- Följ skärmen på skärmen och ange ditt lösenord om det efterfrågas.
Ollama systemkrav (RAM, lagring, CPU)
- Operativsystem: Mac eller Linux (Windows-version under utveckling)
- Minne (RAM): Minst 8 GB, 16 GB eller mer rekommenderas
- Lagring: Minst cirka 10 GB ledigt utrymme (modellfiler kan vara väldigt stora, se mer här Flytta Ollama-modeller till en annan hårddisk )
- Processor: En relativt modern CPU (från de sista fem åren). Om du är nyfiken på hur Ollama använder olika CPU-arkitekturer, se vår analys av hur Ollama använder Intel CPU-prestanda och effektiva kärnor.
För allvarliga AI-arbetsbelastningar, kan du vilja jämföra hårdvarualternativ. Vi har benchmarkat NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestanda med Ollama, och om du överväger att investera i högpresterande hårdvara, vår DGX Spark-priser och förmågans jämförelse ger detaljerad kostnadsanalys.
Grundläggande Ollama CLI-kommandon
| Kommando | Beskrivning |
|---|---|
ollama serve |
Startar Ollama på din lokala system. |
ollama create <new_model> |
Skapar en ny modell från en befintlig för anpassning eller träning. |
ollama show <model> |
Visar detaljer om en specifik modell, t.ex. dess konfiguration och frisättning. |
ollama run <model> |
Kör den angivna modellen, gör den redo för interaktion. |
ollama pull <model> |
Laddar ner den angivna modellen till ditt system. |
ollama list |
Visar alla nedladdade modeller. Detta är samma som ollama ls |
ollama ps |
Visar de modeller som just nu kör. |
ollama stop <model> |
Stoppa den angivna körande modellen. |
ollama rm <model> |
Tar bort den angivna modellen från ditt system. |
ollama help |
Ger hjälp om något kommando. |
Hoppa länkar: Ollama serve-kommando · Ollama run-kommando · Ollama ps-kommando · Ollama CLI-baser · Prestandajusteringar (OLLAMA_NUM_PARALLEL) · Parallella förfrågningar djupdykning
Ollama CLI (vad det är)
Ollama CLI är kommandoradsgränssnittet för att hantera modeller och kör/leverera dem lokalt. De flesta arbetsflöden minskar till:
- Starta servern:
ollama serve - Kör en modell:
ollama run <model> - Se vad som är laddat/körs:
ollama ps - Hantera modeller:
ollama pull,ollama list,ollama rm
Ollama modellhantering: pull och list kommandon
Lista modeller:
ollama list
samma som:
ollama ls
Detta kommando listar alla modeller som har laddats ner till ditt system, med deras filstorlekar på din hdd/sdd, som
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Ladda ner en modell: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Detta kommando laddar ner den angivna modellen (t.ex., Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara väldigt stora, så håll en öga på utrymmet som modellerna använder på hårddisken eller ssd. Du kan även vilja flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre hårddisk
Ollama serve-kommando
ollama serve startar den lokala Ollama-servern (standard HTTP-port 11434).
ollama serve
“ollama serve”-kommando (systemd-vänligt exempel):
# ställ in miljövariabler, sedan starta servern
# gör ollama tillgänglig på värdens IP-adress
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama run-kommando
Kör en modell:
ollama run gpt-oss:20b
Detta kommando startar den angivna modellen och öppnar en interaktiv REPL för interaktion. Vill du förstå hur Ollama hanterar flera samtidiga förfrågningar? Läs mer om hur Ollama hanterar parallella förfrågningar i vår detaljerade analys.
ollama run kör en modell i en interaktiv session,
så du i fallet av gpt-oss:120b skulle se något som
$ ollama run gpt-oss:120b
>>> Skicka ett meddelande (/? för hjälp)
du kan skriva dina frågor eller kommandon och modellen kommer svara.
>>> vem är du?
Tänker...
Användaren frågar "vem är du?" Enkelt fråga. Skulle svara som ChatGPT, en AI-språkmodell, trädd av OpenAI,
osv. Ge kort introduktion. Sannolikt fråga om de behöver hjälp.
...klar med tänkandet.
Jag är ChatGPT, en AI-språkmodell som skapats av OpenAI. Jag har tränats på ett stort antal text så jag kan hjälpa
svara på frågor, brainstorma idéer, förklara koncept, skriva utkast, felsöka problem och mycket mer. Tänk
på mig som en mångsidig virtuell assistent – här för att ge information, support och konversation när du behöver
det. Hur kan jag hjälpa dig idag?
>>> Skicka ett meddelande (/? för hjälp)
För att avsluta den interaktiva ollama-sessionen, tryck på Ctrl+D, eller du kan skriva /bye, samma resultat:
>>> /bye
$
Ollama run-kommando exempel
För att köra en modell och ställa en enda fråga i icke-interaktiv mode:
printf "Ge mig 10 bash en-linjare för log-analys.\n" | ollama run llama3.2
Om du vill se detaljerad detaljerad LLM-svar i ollama-session – kör modellen med --verbose eller -v parameter:
$ ollama run gpt-oss:20b --verbose
>>> vem är du?
Tänker...
Vi behöver svara på en enkel fråga: "vem är du?" Användaren frågar "vem är du?" Vi kan svara att vi
är ChatGPT, en stor språkmodell tränad av OpenAI. Vi kan också nämna förmågor. Användaren förväntar sig
sannolikt en kort introduktion. Vi kommer att hålla det vänligt.
...klar med tänkandet.
Jag är ChatGPT, en stor språkmodell skapad av OpenAI. Jag är här för att hjälpa svara på frågor, erbjuda förklaringar,
brainstorma idéer och chatta om ett brett spektrum av ämnen – allt från vetenskap och historia till kreativ skrivning
och vardagsråd. Bara låt mig veta vad du vill prata om!
total duration: 1.118585707s
load duration: 106.690543ms
prompt eval count: 71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate: 2327.30 tokens/s
eval count: 132 token(s)
eval duration: 945.801569ms
eval rate: 139.56 tokens/s
>>> /bye
$
Ja, det är rätt, det är 139 tokens per sekund. Den gpt-oss:20b är väldigt snabb. Om du, som jag har en GPU med 16 GB VRAM – se LLMs hastighetsjämförelse detaljer i Bästa LLMs för Ollama på 16 GB VRAM GPU.
Tips: Om du vill att modellen ska vara tillgänglig via HTTP för flera appar, starta servern med ollama serve och använd API-klienten istället för långa interaktiva sessioner.
Ollama stop-kommando
Detta kommando stoppar den angivna körande modellen.
ollama stop llama3.1:8b-instruct-q8_0
Ollama evakuerar modeller automagiskt efter en viss tid.
Du kan ange denna tid, standard är 4 minuter.
Om du inte vill vänta på återstående tid, kan du vilja använda detta ollama stop kommando.
Du kan också kasta ut modellen ur VRAM genom att anropa /generate API-slutpunkt med parametern keep_alive=0, se nedan för beskrivning och exempel.
Ollama ps-kommando
ollama ps visar aktuella körande modeller och sessioner (nytta för att felsöka “varför är min VRAM full?”).
ollama ps
Exemplet på ollama ps utdata är nedan:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuter från nu
Du ser här på min dator att gpt-oss:20b passar in i min GPU:s 16 GB VRAM väldigt bra, och upptar endast 14 GB.
Om jag kör ollama run gpt-oss:120b och sedan anropar ollama ps, kommer resultatet inte vara så positivt:
78% av lager är på CPU, och detta är bara med kontextfönstret 4096 token. Det kommer att bli mer om jag behöver öka kontexten.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuter från nu
Prestandajusteringar (OLLAMA_NUM_PARALLEL)
Om du ser köa eller tidsgräns under belastning, är det första justeringen att lära sig OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= hur många förfrågningar Ollama utför parallellt.- En högre värde kan öka throughputs, men kan öka VRAM-tryck och latensspikar.
Snabbt exempel:
OLLAMA_NUM_PARALLEL=2 ollama serve
För en full förklaring (inklusive justeringsstrategier och felmoder), se:
Släppa Ollama-modell från VRAM (keep_alive)
När en modell laddas in i VRAM (GPU-minne), stannar den där även efter att du har slutfört att använda den. För att explicit släppa en modell från VRAM och frigöra GPU-minne, kan du skicka en förfrågan till Ollama API med keep_alive: 0.
- Släpp modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Byt ut MODELNAME mot din faktiska modellnamn, till exempel:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Släpp modell från VRAM med Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Detta är särskilt användbart när:
- Du behöver frigöra GPU-minne för andra program
- Du kör flera modeller och vill hantera VRAM-användning
- Du har slutfört att använda en stor modell och vill släppa resurser direkt
Notera: Parametern keep_alive kontrollerar hur länge (i sekunder) en modell hålls laddad i minnet efter den sista förfrågan. Att sätta den till 0 släpper omedelbart modellen från VRAM.
Anpassa Ollama-modeller (systemprompt, Modelfile)
-
Ställ in systemprompt: Inuti Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:
>>> /set system För alla frågor som ställs svara i ren engelska undvik teknisk jargon så mycket som möjligt >>> /save ipe >>> /byeSedan, kör den anpassade modellen:
ollama run ipeDetta ställer in en systemprompt och sparar modellen för framtida användning.
-
Skapa anpassad modellfil: Skapa en textfil (t.ex.,
custom_model.txt) med följande struktur:FROM llama3.1 SYSTEM [Dina anpassade instruktioner här]Sedan, kör:
ollama create mymodel -f custom_model.txt ollama run mymodelDetta skapar en anpassad modell baserat på instruktionerna i filen".
Använda Ollama run-kommando med filer (sammanfatta, omdirigera)
-
Sammanfatta text från en fil:
ollama run llama3.2 "Sammanfatta innehållet i denna fil i 50 ord." < input.txtDetta kommando sammanfattar innehållet i
input.txtmed hjälp av den angivna modellen. -
Logga modellens svar till en fil:
ollama run llama3.2 "Berätta mig om förnyelsebar energi." > output.txtDetta kommando sparar modellens svar till
output.txt.
Ollama CLI-användningsfall (textgenerering, analys)
-
Textgenerering:
- Sammanfatta en stor textfil:
ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt - Generera innehåll:
ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i hälsovård." > article.txt - Svara på specifika frågor:
ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovård?"
.
- Sammanfatta en stor textfil:
-
Datahantering och analys:
- Klassificera text till positiv, negativ eller neutral känsla:
ollama run llama3.2 "Analysera känslon i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'" - Kategorisera text till fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.
- Klassificera text till positiv, negativ eller neutral känsla:
Använda Ollama med Python (klient och API)
- Installera Ollama Python-bibliotek:
pip install ollama - Generera text med hjälp av Python:
Detta kodexempel genererar text med den angivna modellen och prompten.
import ollama response = ollama.generate(model='gemma:2b', prompt='vad är en kvantbit?') print(response['response'])
För avancerad Python-integrering, utforska använda Ollamas Web Search API i Python, vilket täcker webbsökningsförmåga, verktygsanrop och MCP-serverintegration. Om du bygger AI-drivna appar, vår AI-kodassistent jämförelse kan hjälpa dig välja rätt verktyg för utveckling.
Söker du efter ett webbaserat gränssnitt? Öppna WebUI ger ett självvärdbaserat gränssnitt med RAG-förmåga och stöd för flera användare. För högpresterande produktionsdistributioner, överväg vLLM som alternativ. För att jämföra Ollama med andra lokala och molna LLM-infrastrukturval, se LLM-värd: Lokal, självvärdbaserad & molninfrastruktur jämförd.
Några användbara länkar
Konfiguration och hantering
Alternativ och jämförelser
- Lokal LLM-värd: Komplett 2026-guide - Ollama, vLLM, LocalAI, Jan, LM Studio & Mer
- vLLM Quickstart: Högpresterande LLM-server
- Docker Model Runner vs Ollama: Vilken att välja?
- Första tecknen på Ollama Enshittification
Prestanda och hårdvara
- Hur Ollama hanterar parallella förfrågningar
- Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestandajämförelse
- DGX Spark vs. Mac Studio: En praktisk, priskontrollerad titt på NVIDIA:s personliga AI-superdator
Integration och utveckling
- Använda Ollama Web Search API i Python
- AI-kodassistent jämförelse
- Open WebUI: självvärdbaserat LLM-gränssnitt
- Öppen källkod Chat UI:er för LLM:er på lokala Ollama-instanser
- Begränsa LLM:er med strukturerat utdata: Ollama, Qwen3 & Python eller Go
- Integrera Ollama med Python: REST API och Python-klientexempel
- Go SDK:er för Ollama - jämförelse med exempel