Który model LLM jest najszybszy na GPU z 16 GB VRAM z użyciem Ollama?

GPT-OSS 20B osiągnął najwyższą prędkość w wysokości 139,93 tokenów/sec, jednocześnie mieszczący się całkowicie w 16 GB VRAM. Uruchamia się całkowicie na GPU bez odciążania CPU, co czyni go idealnym do aplikacji krytycznych pod względem prędkości.

Co się dzieje, gdy model LLM przekracza 16 GB VRAM?

Ollama automatycznie przekłada warstwy modelu do pamięci systemowej RAM i procesora CPU. To znacząco obniża wydajność — na przykład Mistral Small 3.2 24B spada do 18,51 tokenów/sec, gdy 18% warstw działa na procesorze CPU.

Jak wielkość kontekstu wpływa na użycie VRAM w Ollama?

Większe okna kontekstu wymagają więcej VRAM na potrzeby cache KV. Używając kontekstu o rozmiarze 19K, model, który mieści się w VRAM przy kontekście 4K, może wymagać przekazania obliczeń na CPU. Zmniejsz rozmiar kontekstu, jeśli chcesz maksymalnie wykorzystać GPU.

Czy Qwen3 14B jest dobry na GPU o pojemności 16 GB?

Tak. Qwen3 14B korzysta tylko z 12 GB pamięci VRAM i działa w 100% na GPU z prędkością 61,85 tokenów na sekundę. Oferta bardzo dobrej realizacji instrukcji i idealnie zmieści się w 16 GB, pozostawiając miejsce na większe rozmiary kontekstu.

Czy powinienem używać większych modeli z wyjmowaniem obliczeń na CPU lub mniejszych modeli w całości na GPU?

W przypadku interaktywnych przypadków użycia mniejsze modele działające w 100% na GPU są zazwyczaj lepsze. Karyna prędkości wynikające z przekazywania obliczeń na CPU jest znacząca – GPT-OSS 120B działający z prędkością 12,64 tokenów na sekundę wydaje się wolny w porównaniu do GPT-OSS 20B działającego z prędkością 139,93 tokenów na sekundę.

Gdzie mogę znaleźć więcej benchmarków wydajności LLM i przewodników po optymalizacji?

Nasz hub wydajności LLM obejmuje przepustowość vs opóźnienie, limity VRAM, żądania równoległe, alokację pamięci oraz wyniki testów wydajnościowych w różnych środowiskach uruchomieniowych i sprzęcie.

Jak wykorzystanie VRAM wiąże się z prędkością tokenów w Ollama?

Modele, które całkowicie mieszczą się w VRAM, unikają przekazywania obliczeń do CPU i działają znacznie szybciej. Przewodnik po wydajności LLM wyjaśnia ograniczenia VRAM i to, jak wpływają one na prędkość inferencji.

Porównanie wydajności LLM na Ollama na GPU z 16 GB VRAM

Test prędkości LLM na RTX 4080 z 16 GB VRAM

Page content

Uruchamianie dużych modeli językowych lokalnie zapewnia prywatność, możliwość pracy offline oraz zero kosztów API.
Ten benchmark pokazuje dokładnie, co można się spodziewać od 14 popularnych
LLM na Ollama na RTX 4080.

Z 16 GB VRAM GPU miałem stały kompromis:
większe modele z potencjalnie lepszym jakością, czy mniejsze modele z szybszym inferencją.
Aby dowiedzieć się więcej na temat wydajności LLM — przepustowość vs opóźnienie, ograniczenia VRAM, żądania równoległe oraz benchmarki na różnych środowiskach, zobacz Wydajność LLM: Benchmarki, Bottlenecks & Optymalizacja.

Wydajność LLM na Ollama - ponowne rangowanie krolików

TL;DR

Oto zaktualizowana tabela porównawcza wydajności LLM na RTX 4080 16 GB z Ollama 0.17.7, (2026-03-09) dodano modele Qwen 3.5 9b, 9bq8, 27b i 35b:

Model	RAM+VRAM użyte	Podział CPU/GPU	Tokenów/sec
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

Główne spostrzeżenie: Modele, które mieszczą się całkowicie w VRAM, są znacznie szybsze. GPT-OSS 20B osiąga 139.93 tokenów/sec, podczas gdy GPT-OSS 120B z ciężkim przekazaniem do CPU porusza się zaledwie 12.64 tokenów/sec — różnica w prędkości wynosi 11x.

Konfiguracja sprzętu testu

Benchmark przeprowadzono na poniższym systemie:

GPU: NVIDIA RTX 4080 z 16 GB VRAM
CPU: Intel Core i7-14700 (8 rdzeni P + 12 rdzeni E)
RAM: 64 GB DDR5-6000

To reprezentuje typowe wysokiej klasy konfiguracje użytkownika dla lokalnego inferencji LLM.
16 GB VRAM to kluczowe ograniczenie — decyduje, które modele działają całkowicie na GPU, a które wymagają przekazania do CPU.

Zrozumienie jak Ollama wykorzystuje rdzenie procesora Intel staje się ważne, gdy modele przekraczają pojemność VRAM, ponieważ wydajność CPU bezpośrednio wpływa na prędkość inferencji warstw przekazanych.

Cel tego benchmarku

Głównym celem było zmierzenie prędkości inferencji w realistycznych warunkach. Już wcześniej wiedziałem z doświadczenia, że Mistral Small 3.2 24B wyróżnia się jakością języka, podczas gdy Qwen3 14B oferuje lepsze przestrzeganie instrukcji dla moich konkretnych przypadków użycia.

Ten benchmark odpowiada na praktyczne pytanie: Jak szybko może generować tekst każdy model, a także jak duży jest koszt prędkości przy przekraczaniu limitów VRAM?

Parametry testu:

Wielkość kontekstu: 19 000 tokenów. Jest to średnia wartość w moich żądaniach generowania.
Prompt: “porównaj pogodę i klimat między stolicami Australii”
Metryka: szybkość oceny (tokeny na sekundę podczas generowania)

Instalacja i wersja Ollama

Wszystkie testy wykorzystywały wersję Ollama 0.15.2, najnowszą wersję w momencie przeprowadzania testów.
Później ponownie przeprowadzono testy na wersji Ollama 0.17.7 — aby dodać modele Qwen3.5.
Aby uzyskać pełną referencję poleceń Ollama używanych w tym benchmarku, zobacz Ollama cheatsheet.

Aby szybko zainstalować Ollama na Linuxie:

curl -fsSL https://ollama.com/install.sh | sh

Sprawdzenie instalacji:

ollama --version

Jeśli potrzebujesz przechowywania modeli na innym dysku ze względu na ograniczenia miejsca, zobacz jak przenieść modele Ollama na inny dysk.

Modele przetestowane

Poniższe modele zostały przetestowane, w kolejności alfabetycznej:

Model	Parametry	Kwantyzacja	Uwagi
devstral-small-2:24b	24B	Q4_K_M	Skupiony na kodowaniu
glm-4.7-flash	30B	Q4_K_M	Model myślenia
gpt-oss:20b	20B	Q4_K_M	Najlepszy ogólnie
gpt-oss:120b	120B	Q4_K_M	Największy przetestowany
ministral-3:14b	14B	Q4_K_M	Efektywny model Mistral
mistral-small3.2:24b	24B	Q4_K_M	Wysoka jakość języka
nemotron-3-nano:30b	30B	Q4_K_M	Oferta NVIDIA
qwen3:14b	14B	Q4_K_M	Najlepsze przestrzeganie instrukcji
qwen3.5:9b	9B	Q4_K_M	Szybki, całkowicie na GPU
qwen3.5:9b-q8_0	9B	Q8_0	Wyższa jakość, całkowicie na GPU
qwen3.5:27b	27B	Q4_K_M	Wysoka jakość, wolny na Ollama
qwen3-vl:30b-a3b	30B	Q4_K_M	Wizualnie zdolny
qwen3-coder:30b	30B	Q4_K_M	Skupiony na kodowaniu
qwen3.5:35b	35B	Q4_K_M	Dobrze rozwinięte możliwości kodowania

Aby pobrać dowolny model:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Zrozumienie przekazywania do CPU

Gdy wymagania pamięci modelu przekraczają dostępne VRAM, Ollama automatycznie rozdziela warstwy modelu między GPU i pamięć RAM systemu. Wynik pokazuje to jako procentowy podział, np. “18%/82% CPU/GPU”.

To ma ogromny wpływ na wydajność. Każda generacja tokena wymaga transferu danych między pamięcią CPU i GPU — to wąskie gardło, które się zwiększa z każdą warstwą przekazaną do CPU.

Z naszych wyników wynika jasno:

Modele 100% na GPU: 61–140 tokenów/sec
Modele 70–82% na GPU: 19–51 tokenów/sec
22% na GPU (prawie całość na CPU): 12,6 tokenów/sec

To wyjaśnia, dlaczego model 20B może w praktyce wygrać z modelem 120B 11x. Jeśli planujesz obsługę wielu żądań równoległych, zrozumienie jak Ollama obsługuje żądania równoległe staje się kluczowe dla planowania pojemności.

Szczegółowe wyniki benchmarku

Modele działające 100% na GPU

GPT-OSS 20B — Zwycięzca szybkości

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Z prędkością 139.93 tokenów/sec, GPT-OSS 20B jest wyraźnym zwycięzcą w aplikacjach krytycznych dla szybkości. Używa tylko 14 GB VRAM, pozostawiając miejsce na większe okna kontekstu lub inne obciążenia GPU.

Qwen3 14B — Doskonały kompromis

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B oferuje najlepsze przestrzeganie instrukcji z mojego doświadczenia, z wygodnym 12 GB zapotrzebowaniem na pamięć. Z prędkością 61.85 tokenów/sec, jest wystarczająco szybki do interaktywnego użycia.

Dla programistów integrujących Qwen3 z aplikacjami, zobacz Strukturalne wyjście LLM z Ollama i Qwen3 do wyciągania strukturalnych odpowiedzi w formacie JSON.

Ministral 3 14B — Szybki i zwarty

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mniejszy model Mistral dostarcza 70.13 tokenów/sec, jednocześnie mieszczący się całkowicie w VRAM. Solidna opcja, gdy potrzebujesz jakości modelu Mistral przy maksymalnej prędkości.

qwen3.5:9b - szybki i nowy

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - kwantyzacja q8

Ta kwantyzacja obniża wydajność qwen3.5:9b o 30% w porównaniu do q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

porównaj pogodę i klimat między stolicami Australii
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modele wymagające przekazywania do CPU

qwen3-coder:30b - najszybszy wśród modeli 30B z powodu bycia tekstowym

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Najlepsza wydajność częściowo przekazanego modelu

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Mimo tego, że 30% warstw znajduje się na CPU, Qwen3-VL utrzymuje 50.99 tokenów/sec — szybszy niż niektóre modele 100% na GPU. Możliwość wizualizacji dodaje elastyczność do zadań multimodalnych.

Mistral Small 3.2 24B — Kompromis między jakością a prędkością

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 oferuje wyższą jakość języka, ale płaci drobną cenę za prędkość. Z prędkością 18.51 tokenów/sec, czuje się znacznie wolniej w interaktywnym czacie. Warto, jeśli jakość ma większą wagę niż opóźnienie.

GLM 4.7 Flash — Model Mixture of Experts

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash to model Mixture of Experts z 30B parametrami — tylko 3B aktywnych na token. Jako model “myślenia”, generuje wewnętrzną analizę przed odpowiedzią. 33.86 tokenów/sec obejmuje zarówno myślenie, jak i tokeny wyjściowe. Mimo przekazywania do CPU, architektura MoE utrzymuje rozsądną szybkość.

qwen3.5:35b - nowy model z dość dobrymi wynikami samodzielnej hostingu

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Duży model

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Uruchamianie modelu 120B na 16 GB VRAM technicznie jest możliwe, ale uciążliwe. Z 78% na CPU, 12.64 tokenów/sec sprawia, że interaktywne użycie frustrujące. Lepsze do przetwarzania wsadowego, gdzie opóźnienie nie ma znaczenia.

qwen3.5:27b - inteligentny, ale wolny na Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
porównaj pogodę i klimat między stolicami Australii

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Przetestowałem qwen3.5:27b i uzyskałem bardzo dobre opinie na temat wydajności tego modelu z OpenCode.
To bardzo zdolny model, bogaty w wiedzę, naprawdę dobry w wywoływaniu narzędzi, choć wolny na moim komputerze na Ollama.
Próbowałem innych platform do samodzielnej hostingu LLM, i uzyskałem znacznie wyższe prędkości.
Uważam, że czas, by puścić Ollama.
Zapiszę o tym nieco później.

Praktyczne rekomendacje

Dla czatu interaktywnego

Używaj modeli, które mieszczą się całkowicie w VRAM:

GPT-OSS 20B — Maksymalna prędkość (139.93 t/s)
Ministral 3 14B — Dobra prędkość z jakością Mistral (70.13 t/s)
Qwen3 14B — Najlepsze przestrzeganie instrukcji (61.85 t/s)

Aby uzyskać lepsze doświadczenie czatu, rozważ Otwarte interfejsy czatu dla lokalnego Ollama.

Dla przetwarzania wsadowego

Znowu, na moim sprzęcie — 14 GB VRAM.

Gdy prędkość jest mniej krytyczna:

Mistral Small 3.2 24B — Wyjątkowa jakość języka
Qwen3-VL 30B — Możliwość wizualizacji + tekst

Gdy prędkość nie ma znaczenia:

Qwen3.5:35b - Dobre możliwości kodowania
Qwen3.5:27b - Bardzo dobre, ale wolne na Ollama. Miałem bardzo dobre wyniki hostingu tego modelu na llama.cpp.

Dla programowania i rozwoju

Jeśli tworzysz aplikacje z Ollama:

Alternatywne opcje hostingu

Jeśli obawy dotyczące ograniczeń Ollama (patrz Obawy związane z Ollama), rozważ inne opcje w Przewodnik po lokalnym hostingu LLM lub porównaj Docker Model Runner vs Ollama.

Podsumowanie

Z 16 GB VRAM możesz uruchomić zdolne LLM z印象深刻 speeds — jeśli wybierzesz odpowiednio. Kluczowe spostrzeżenia:

Zachowuj ograniczenia VRAM dla interaktywnego użycia. Model 20B z 140 tokenów/sec pokonuje model 120B z 12 tokenów/sec w większości praktycznych przypadków.
GPT-OSS 20B wygrywa pod względem czystej prędkości, ale Qwen3 14B oferuje najlepszy kompromis między prędkością a możliwością dla zadań przestrzegania instrukcji.
Przekazywanie do CPU działa, ale spodziewaj się spowolnienia 3–10x. Akceptowalne dla przetwarzania wsadowego, frustrujące dla czatu.
Wielkość kontekstu ma znaczenie. Użyte tu 19K kontekstu znacząco zwiększa zużycie VRAM. Zmniejsz kontekst dla lepszego wykorzystania GPU.

Aby uzyskać AI-powered wyszukiwanie łączące lokalne LLM z wynikami sieci, zobacz samodzielne hostowanie Perplexica z Ollama.

Aby przeanalizować więcej benchmarków, kompromisy między VRAM a przepustowością oraz optymalizację wydajności w Ollama i innych środowiskach, sprawdź nasz Wydajność LLM: Benchmarki, Bottlenecks & Optymalizacja.