Ollama Cheatsheet - de mest användbara kommandona

Sammanställde den här listan med Ollama-kommandon för någon tid sedan...

Sidinnehåll

Här är listan och exempel på de mest användbara Ollama-kommandona (Ollama kommandon översikt) som jag sammanställde för någon tid sedan. Hoppas det kommer att vara användbart för dig också.

ollama kommandon översikt

Den här Ollama-översikten fokuserar på CLI-kommandon, modellhantering och anpassning, men vi har också några curl-anrop här.

Installation

  • Alternativ 1: Ladda ner från webbplatsen
    • Besök ollama.com och ladda ner installatören för ditt operativsystem (Mac, Linux eller Windows).
  • Alternativ 2: Installera via kommandoraden
    • För Mac- och Linux-användare, använd kommandot:
curl https://ollama.ai/install.sh | sh
  • Följ instruktionerna på skärmen och ange ditt lösenord om det efterfrågas.

Systemkrav

  • Operativsystem: Mac eller Linux (Windows-version under utveckling)
  • Minne (RAM): 8GB minimum, 16GB eller mer rekommenderas
  • Lagringsutrymme: Minst ~10GB ledigt utrymme (modellfiler kan vara väldigt stora, se här mer Flytta Ollama-modeller till annan enhet)
  • Processor: En relativt modern CPU (från de senaste 5 åren).

Grundläggande Ollama CLI-kommandon

Kommando Beskrivning
ollama serve Startar Ollama på ditt lokala system.
ollama create <ny_modell> Skapar en ny modell från en befintlig för anpassning eller träning.
ollama show <modell> Visar detaljer om en specifik modell, såsom dess konfiguration och utgivningsdatum.
ollama run <modell> Kör den angivna modellen, gör den redo för interaktion.
ollama pull <modell> Laddar ner den angivna modellen till ditt system.
ollama list Listar alla nedladdade modeller. Samma som ollama ls
ollama ps Visar de modeller som just nu körs.
ollama stop <modell> Stoppar den angivna körande modellen.
ollama rm <modell> Tar bort den angivna modellen från ditt system.
ollama help Ger hjälp om något kommando.

Modellhantering

  • Ladda ner en modell:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    Det här kommandot laddar ner den angivna modellen (t.ex. Gemma 2B eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara ganska stora, så håll koll på utrymmet som modeller använder på hårddisken eller SSD:n. Du kanske till och med vill flytta alla Ollama-modeller från ditt hemkatalog till en större och bättre enhet

  • Kör en modell:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    Det här kommandot startar den angivna modellen och öppnar ett interaktivt REPL för interaktion.

  • Lista modeller:

    ollama list
    

    samma som:

    ollama ls
    

    Det här kommandot listar alla modeller som har laddats ner till ditt system, till exempel

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago
    
  • Stoppa en modell:

    ollama stop llama3.1:8b-instruct-q8_0
    

    Det här kommandot stoppar den angivna körande modellen.

Frigör modell från VRAM

När en modell laddas in i VRAM (GPU-minne) förblir den där även efter att du har slutfört användningen. För att explicit frigöra en modell från VRAM och frigöra GPU-minne kan du skicka en förfrågan till Ollama-API med keep_alive: 0.

  • Frigör modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Ersätt MODELNAME med ditt faktiska modellnamn, till exempel:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Frigör modell från VRAM med Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Det här är särskilt användbart när:

  • Du behöver frigöra GPU-minne för andra applikationer
  • Du kör flera modeller och vill hantera VRAM-användning
  • Du har slutfört användningen av en stor modell och vill frigöra resurser omedelbart

Anmärkning: Parametern keep_alive styr hur länge (i sekunder) en modell förblir laddad i minnet efter den sista förfrågan. Att ställa in den till 0 laddar omedelbart ur modellen från VRAM.

Anpassa modeller

  • Ställ in systemprompt: Inuti Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:

    >>> /set system För alla frågor som ställs, svara på enkelt engelska och undvik tekniska termer så mycket som möjligt
    >>> /save ipe
    >>> /bye
    

    Kör sedan den anpassade modellen:

    ollama run ipe
    

    Det här ställer in en systemprompt och sparar modellen för framtida användning.

  • Skapa anpassad modellfil: Skapa en textfil (t.ex. custom_model.txt) med följande struktur:

    FROM llama3.1
    SYSTEM [Dina anpassade instruktioner här]
    

    Kör sedan:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Det här skapar en anpassad modell baserad på instruktionerna i filen.

Använda Ollama med filer

  • Sammanfatta text från en fil:

    ollama run llama3.2 "Sammanfatta innehållet i denna fil på 50 ord." < input.txt
    

    Det här kommandot sammanfattar innehållet i input.txt med den angivna modellen.

  • Logga modellrespons till en fil:

    ollama run llama3.2 "Berätta om förnybar energi." > output.txt
    

    Det här kommandot sparar modellens respons till output.txt.

Vanliga användningsområden

  • Textgenerering:

    • Sammanfatta en stor textfil:
      ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt
      
    • Generera innehåll:
      ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI inom hälsovården." > article.txt
      
    • Svara på specifika frågor:
      ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovården?"
      
  • Databehandling och analys:

    • Klassificera text i positiv, negativ eller neutral känsla:
      ollama run llama3.2 "Analysera känslan i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'"
      
    • Kategorisera text i fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.

Använda Ollama med Python

  • Installera Ollama Python-bibliotek:
    pip install ollama
    
  • Generera text med Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='vad är en qubit?')
    print(response['response'])
    
    Den här kodsnuttet genererar text med den angivna modellen och prompten.

Användbara länkar