Jakie są najpopularniejsze polecenia w Ollama?

Najpopularniejsze polecenia w Ollama to: ollama list, ollama pull, ollama rm i ollama run.

Ollama Cheatsheet - najbardziej przydatne polecenia

Kilka czasów temu stworzyłem listę poleceń Ollama...

Page content

Oto lista i przykłady najbardziej przydatnych poleceń Ollama (cheatsheet poleceń Ollama) Zgromadziłem je kilka czasów temu. Mam nadzieję, że będzie również przydatny dla Ciebie.

cheatsheet Ollama

Ten cheatsheet Ollama skupia się na poleceniach CLI, zarządzaniu modelami i dostosowaniu, Ale tutaj również znajdziesz kilka wywołań curl .

Instalacja

Opcja 1: Pobierz z witryny
- Odwiedź ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
Opcja 2: Zainstaluj przez wiersz poleceń
- Dla użytkowników Mac i Linux, użyj polecenia:

curl https://ollama.ai/install.sh | sh

Postępuj zgodnie z instrukcjami na ekranie i wpisz swoje hasło, jeśli zostanie poproszony.

Wymagania systemowe

System operacyjny: Mac lub Linux (wersja Windows w trakcie rozwoju)
Pamięć (RAM): Minimum 8 GB, zalecane 16 GB lub więcej
Przechowywanie: Co najmniej ~10 GB wolnego miejsca (pliki modeli mogą być naprawdę duże, zobacz tutaj więcej Przeniesienie modeli Ollama na inny dysk )
Procesor: Relatywnie nowy procesor (z ostatnich 5 lat).

Podstawowe polecenia CLI Ollama

Polecenie	Opis
`ollama serve`	Uruchamia Ollama na Twoim lokalnym systemie.
`ollama create <nowy_model>`	Tworzy nowy model na podstawie istniejącego w celu dostosowania lub szkolenia.
`ollama show <model>`	Wyświetla szczegóły dotyczące konkretnego modelu, takie jak jego konfiguracja i data wydania.
`ollama run <model>`	Uruchamia wskazany model, gotowy do interakcji.
`ollama pull <model>`	Pobiera wskazany model na Twój system.
`ollama list`	Wyświetla wszystkie pobrane modele. To samo co `ollama ls`
`ollama ps`	Pokazuje obecnie uruchomione modele.
`ollama stop <model>`	Zatrzymuje wskazany uruchomiony model.
`ollama rm <model>`	Usuwa wskazany model z Twojego systemu.
`ollama help`	Udostępnia pomoc dotyczącą dowolnego polecenia.

Zarządzanie modelami

Pobierz model:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
To polecenie pobiera wskazany model (np. Gemma 2B, lub mistral-nemo:12b-instruct-2407-q6_K) na Twój system. Pliki modeli mogą być bardzo duże, więc śledź zużycie miejsca przez modele na dysku twardym, lub ssd. Możesz nawet chcieć przenieść wszystkie modele Ollama z katalogu domowego na większy i lepszy dysk
Uruchom model:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
To polecenie uruchamia wskazany model i otwiera interaktywny REPL do interakcji.

Wyświetl modele:

ollama list

To samo co:

ollama ls

To polecenie wyświetla wszystkie modele pobrane na Twój system, np.

$ ollama ls
NAZWY                                                    ID              ROZMIAR      ZMIENIONO     
deepseek-r1:8b                                          6995872bfe4c    5,2 GB    2 tygodnie temu     
gemma3:12b-it-qat                                       5d4fa005e7bb    8,9 GB    2 tygodnie temu     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 tygodnie temu     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4,7 GB    4 tygodnie temu     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2,9 GB    4 tygodnie temu     
qwen3:8b                                                500a1f067a9f    5,2 GB    5 tygodnie temu     
qwen3:14b                                               bdbd181c33f2    9,3 GB    5 tygodnie temu     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 tygodnie temu     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 tygodnie temu

Zatrzymaj model:
```
ollama stop llama3.1:8b-instruct-q8_0
```
To polecenie zatrzymuje wskazany uruchomiony model.

Zwolnienie modelu z VRAM

Gdy model jest załadowany do VRAM (pamięci GPU), pozostaje tam nawet po zakończeniu jego użycia. Aby jawnie zwolnić model z VRAM i zwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.

Zwolnienie modelu z VRAM za pomocą curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Zamień MODELNAME na rzeczywistą nazwę modelu, np.:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Zwolnienie modelu z VRAM za pomocą Pythona:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

To jest szczególnie przydatne, gdy:

Musisz zwolnić pamięć GPU dla innych aplikacji
Uruchamiasz wiele modeli i chcesz zarządzać użyciem VRAM
Skończyłeś korzystać z dużego modelu i chcesz natychmiast zwolnić zasoby

Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany do pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiast zwalnia model z VRAM.

Dostosowywanie modeli

Ustawienie systemowego monitu: Wewnątrz REPL Ollama możesz ustawić systemowy monit, aby dostosować zachowanie modelu:
```
>>> /set system Dla wszystkich pytań odpowiadaj po prostu po angielsku, unikając jak najbardziej technicznego żargonu
>>> /save ipe
>>> /bye
```
Następnie uruchom dostosowany model:
```
ollama run ipe
```
To ustawia systemowy monit i zapisuje model do późniejszego użytku.
Utwórz plik modelu niestandardowego: Utwórz plik tekstowy (np. custom_model.txt) z poniższą strukturą:
```
FROM llama3.1
SYSTEM [Twoje niestandardowe instrukcje tutaj]
```
Następnie uruchom:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
To tworzy dostosowany model na podstawie instrukcji w pliku.

Użycie Ollama z plikami

Podsumowanie tekstu z pliku:
```
ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txt
```
To polecenie podsumowuje zawartość input.txt za pomocą wskazanego modelu.
Zapisanie odpowiedzi modelu do pliku:
```
ollama run llama3.2 "Opowiedz mi o energii odnawialnej." > output.txt
```
To polecenie zapisuje odpowiedź modelu do output.txt.

Typowe przypadki użycia

Generowanie tekstu:

Podsumowanie dużego pliku tekstowego:

ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt

Generowanie treści:

ollama run llama3.2 "Napisz krótki artykuł o korzyściach z użycia AI w medycynie." > article.txt

Odpowiadanie na konkretne pytania:

ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną one na medycynę?"

Przetwarzanie i analiza danych:
- Klasyfikacja tekstu na pozytywny, negatywny lub neutralny:
```
ollama run llama3.2 "Przeanalizuj ton tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była wolna.'"
```
- Kategoryzacja tekstu na wcześniej zdefiniowane kategorie: Użyj podobnych poleceń, aby klasyfikować lub kategoryzować tekst na podstawie wcześniej zdefiniowanych kryteriów.

Użycie Ollama z Pythonem

Zainstaluj bibliotekę Pythona Ollama:
```
pip install ollama
```

Generowanie tekstu za pomocą Pythona:

import ollama

response = ollama.generate(model='gemma:2b', prompt='co to jest kubit?')
print(response['response'])

Ten fragment kodu generuje tekst za pomocą wskazanego modelu i monitu.