Ollama CLI-snabbguide: ls, serve, run, ps + kommandon (uppdatering 2026)

Uppdaterad lista över Ollama-kommandon - ls, ps, run, serve, osv

Sidinnehåll

Detta Ollama CLI cheat sheet fokuserar på kommandon du använder varje dag (ollama ls, ollama serve, ollama run, ollama ps, modellhantering och vanliga arbetsflöden), med exempel som du kan kopiera och klistra in.

Det inkluderar också en kort “prestanda justeringar”-sektion för att hjälpa dig upptäcka (och sedan dyka in i) OLLAMA_NUM_PARALLEL och relaterade inställningar.

ollama cheatsheet

Den här Ollama cheat sheeten fokuserar på CLI-kommandon, modellhantering och anpassning, men vi har också några curl anrop här.

För en komplett bild av var Ollama passar in bland lokala, självvärdbaserade och molnalternativ – inklusive vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM Hosting: Lokal, självvärdbaserad & molninfrastruktur jämförd. Om du jämför olika lokala LLM-värdalternativ, kontrollera vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandoradsgränssnitt, Docker Model Runner erbjuder en annan metod för LLM-distribution.

Ollama installation (ladda ner och CLI-installation)

  • Alternativ 1: Ladda ner från hemsidan
    • Besök ollama.com och ladda ner installationsprogrammet för din operativsystem (Mac, Linux eller Windows).
  • Alternativ 2: Installera via kommandorad
    • För Mac- och Linux-användare, använd kommandot:
curl https://ollama.ai/install.sh | sh
  • Följ skärmen på skärmen och ange ditt lösenord om det efterfrågas.

Ollama systemkrav (RAM, lagring, CPU)

För allvarliga AI-arbetsbelastningar, kan du vilja jämföra hårdvarualternativ. Vi har benchmarkat NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestanda med Ollama, och om du överväger att investera i högpresterande hårdvara, vår DGX Spark-priser och förmågans jämförelse ger detaljerad kostnadsanalys.

Grundläggande Ollama CLI-kommandon

Kommando Beskrivning
ollama serve Startar Ollama på din lokala system.
ollama create <new_model> Skapar en ny modell från en befintlig för anpassning eller träning.
ollama show <model> Visar detaljer om en specifik modell, t.ex. dess konfiguration och frisättning.
ollama run <model> Kör den angivna modellen, gör den redo för interaktion.
ollama pull <model> Laddar ner den angivna modellen till ditt system.
ollama list Visar alla nedladdade modeller. Detta är samma som ollama ls
ollama ps Visar de modeller som just nu kör.
ollama stop <model> Stoppa den angivna körande modellen.
ollama rm <model> Tar bort den angivna modellen från ditt system.
ollama help Ger hjälp om något kommando.

Hoppa länkar: Ollama serve-kommando · Ollama run-kommando · Ollama ps-kommando · Ollama CLI-baser · Prestandajusteringar (OLLAMA_NUM_PARALLEL) · Parallella förfrågningar djupdykning

Ollama CLI (vad det är)

Ollama CLI är kommandoradsgränssnittet för att hantera modeller och kör/leverera dem lokalt. De flesta arbetsflöden minskar till:

  • Starta servern: ollama serve
  • Kör en modell: ollama run <model>
  • Se vad som är laddat/körs: ollama ps
  • Hantera modeller: ollama pull, ollama list, ollama rm

Ollama modellhantering: pull och list kommandon

Lista modeller:

ollama list

samma som:

ollama ls

Detta kommando listar alla modeller som har laddats ner till ditt system, med deras filstorlekar på din hdd/sdd, som

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

Ladda ner en modell: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Detta kommando laddar ner den angivna modellen (t.ex., Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara väldigt stora, så håll en öga på utrymmet som modellerna använder på hårddisken eller ssd. Du kan även vilja flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre hårddisk

Ollama serve-kommando

ollama serve startar den lokala Ollama-servern (standard HTTP-port 11434).

ollama serve

“ollama serve”-kommando (systemd-vänligt exempel):

# ställ in miljövariabler, sedan starta servern
# gör ollama tillgänglig på värdens IP-adress
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run-kommando

Kör en modell:

ollama run gpt-oss:20b

Detta kommando startar den angivna modellen och öppnar en interaktiv REPL för interaktion. Vill du förstå hur Ollama hanterar flera samtidiga förfrågningar? Läs mer om hur Ollama hanterar parallella förfrågningar i vår detaljerade analys.

ollama run kör en modell i en interaktiv session, så du i fallet av gpt-oss:120b skulle se något som

$ ollama run gpt-oss:120b
>>> Skicka ett meddelande (/? för hjälp)

du kan skriva dina frågor eller kommandon och modellen kommer svara.

>>> vem är du?
Tänker...
Användaren frågar "vem är du?" Enkelt fråga. Skulle svara som ChatGPT, en AI-språkmodell, trädd av OpenAI, 
osv. Ge kort introduktion. Sannolikt fråga om de behöver hjälp.
...klar med tänkandet.

Jag är ChatGPT, en AI-språkmodell som skapats av OpenAI. Jag har tränats på ett stort antal text så jag kan hjälpa 
svara på frågor, brainstorma idéer, förklara koncept, skriva utkast, felsöka problem och mycket mer. Tänk 
på mig som en mångsidig virtuell assistent – här för att ge information, support och konversation när du behöver 
det. Hur kan jag hjälpa dig idag?

>>> Skicka ett meddelande (/? för hjälp)

För att avsluta den interaktiva ollama-sessionen, tryck på Ctrl+D, eller du kan skriva /bye, samma resultat:

>>> /bye
$ 

Ollama run-kommando exempel

För att köra en modell och ställa en enda fråga i icke-interaktiv mode:

printf "Ge mig 10 bash en-linjare för log-analys.\n" | ollama run llama3.2

Om du vill se detaljerad detaljerad LLM-svar i ollama-session – kör modellen med --verbose eller -v parameter:

$ ollama run gpt-oss:20b --verbose
>>> vem är du?
Tänker...
Vi behöver svara på en enkel fråga: "vem är du?" Användaren frågar "vem är du?" Vi kan svara att vi 
är ChatGPT, en stor språkmodell tränad av OpenAI. Vi kan också nämna förmågor. Användaren förväntar sig 
sannolikt en kort introduktion. Vi kommer att hålla det vänligt.
...klar med tänkandet.

Jag är ChatGPT, en stor språkmodell skapad av OpenAI. Jag är här för att hjälpa svara på frågor, erbjuda förklaringar, 
brainstorma idéer och chatta om ett brett spektrum av ämnen – allt från vetenskap och historia till kreativ skrivning 
och vardagsråd. Bara låt mig veta vad du vill prata om!

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$ 

Ja, det är rätt, det är 139 tokens per sekund. Den gpt-oss:20b är väldigt snabb. Om du, som jag har en GPU med 16 GB VRAM – se LLMs hastighetsjämförelse detaljer i Bästa LLMs för Ollama på 16 GB VRAM GPU.

Tips: Om du vill att modellen ska vara tillgänglig via HTTP för flera appar, starta servern med ollama serve och använd API-klienten istället för långa interaktiva sessioner.

Ollama stop-kommando

Detta kommando stoppar den angivna körande modellen.

ollama stop llama3.1:8b-instruct-q8_0

Ollama evakuerar modeller automagiskt efter en viss tid. Du kan ange denna tid, standard är 4 minuter. Om du inte vill vänta på återstående tid, kan du vilja använda detta ollama stop kommando. Du kan också kasta ut modellen ur VRAM genom att anropa /generate API-slutpunkt med parametern keep_alive=0, se nedan för beskrivning och exempel.

Ollama ps-kommando

ollama ps visar aktuella körande modeller och sessioner (nytta för att felsöka “varför är min VRAM full?”).

ollama ps

Exemplet på ollama ps utdata är nedan:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuter från nu

Du ser här på min dator att gpt-oss:20b passar in i min GPU:s 16 GB VRAM väldigt bra, och upptar endast 14 GB.

Om jag kör ollama run gpt-oss:120b och sedan anropar ollama ps, kommer resultatet inte vara så positivt: 78% av lager är på CPU, och detta är bara med kontextfönstret 4096 token. Det kommer att bli mer om jag behöver öka kontexten.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuter från nu

Prestandajusteringar (OLLAMA_NUM_PARALLEL)

Om du ser köa eller tidsgräns under belastning, är det första justeringen att lära sig OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = hur många förfrågningar Ollama utför parallellt.
  • En högre värde kan öka throughputs, men kan öka VRAM-tryck och latensspikar.

Snabbt exempel:

OLLAMA_NUM_PARALLEL=2 ollama serve

För en full förklaring (inklusive justeringsstrategier och felmoder), se:

Släppa Ollama-modell från VRAM (keep_alive)

När en modell laddas in i VRAM (GPU-minne), stannar den där även efter att du har slutfört att använda den. För att explicit släppa en modell från VRAM och frigöra GPU-minne, kan du skicka en förfrågan till Ollama API med keep_alive: 0.

  • Släpp modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Byt ut MODELNAME mot din faktiska modellnamn, till exempel:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Släpp modell från VRAM med Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Detta är särskilt användbart när:

  • Du behöver frigöra GPU-minne för andra program
  • Du kör flera modeller och vill hantera VRAM-användning
  • Du har slutfört att använda en stor modell och vill släppa resurser direkt

Notera: Parametern keep_alive kontrollerar hur länge (i sekunder) en modell hålls laddad i minnet efter den sista förfrågan. Att sätta den till 0 släpper omedelbart modellen från VRAM.

Anpassa Ollama-modeller (systemprompt, Modelfile)

  • Ställ in systemprompt: Inuti Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:

    >>> /set system För alla frågor som ställs svara i ren engelska undvik teknisk jargon så mycket som möjligt
    >>> /save ipe
    >>> /bye
    

    Sedan, kör den anpassade modellen:

    ollama run ipe
    

    Detta ställer in en systemprompt och sparar modellen för framtida användning.

  • Skapa anpassad modellfil: Skapa en textfil (t.ex., custom_model.txt) med följande struktur:

    FROM llama3.1
    SYSTEM [Dina anpassade instruktioner här]
    

    Sedan, kör:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Detta skapar en anpassad modell baserat på instruktionerna i filen".

Använda Ollama run-kommando med filer (sammanfatta, omdirigera)

  • Sammanfatta text från en fil:

    ollama run llama3.2 "Sammanfatta innehållet i denna fil i 50 ord." < input.txt
    

    Detta kommando sammanfattar innehållet i input.txt med hjälp av den angivna modellen.

  • Logga modellens svar till en fil:

    ollama run llama3.2 "Berätta mig om förnyelsebar energi." > output.txt
    

    Detta kommando sparar modellens svar till output.txt.

Ollama CLI-användningsfall (textgenerering, analys)

  • Textgenerering:

    • Sammanfatta en stor textfil:
      ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt
      
    • Generera innehåll:
      ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i hälsovård." > article.txt
      
    • Svara på specifika frågor:
      ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovård?"
      

    .

  • Datahantering och analys:

    • Klassificera text till positiv, negativ eller neutral känsla:
      ollama run llama3.2 "Analysera känslon i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'"
      
    • Kategorisera text till fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.

Använda Ollama med Python (klient och API)

  • Installera Ollama Python-bibliotek:
    pip install ollama
    
  • Generera text med hjälp av Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='vad är en kvantbit?')
    print(response['response'])
    
    Detta kodexempel genererar text med den angivna modellen och prompten.

För avancerad Python-integrering, utforska använda Ollamas Web Search API i Python, vilket täcker webbsökningsförmåga, verktygsanrop och MCP-serverintegration. Om du bygger AI-drivna appar, vår AI-kodassistent jämförelse kan hjälpa dig välja rätt verktyg för utveckling.

Söker du efter ett webbaserat gränssnitt? Öppna WebUI ger ett självvärdbaserat gränssnitt med RAG-förmåga och stöd för flera användare. För högpresterande produktionsdistributioner, överväg vLLM som alternativ. För att jämföra Ollama med andra lokala och molna LLM-infrastrukturval, se LLM-värd: Lokal, självvärdbaserad & molninfrastruktur jämförd.

Några användbara länkar

Konfiguration och hantering

Alternativ och jämförelser

Prestanda och hårdvara

Integration och utveckling