Beste LLMs für Ollama auf einer GPU mit 16GB VRAM
LLM-Geschwindigkeitstest auf RTX 4080 mit 16GB VRAM
Das Ausführen großer Sprachmodelle lokal bietet Ihnen Privatsphäre, Offline-Fähigkeit und null API-Kosten. Diese Benchmark zeigt genau, was man von 9 beliebten LLMs auf Ollama auf einer RTX 4080 erwarten kann.
Mit einer 16GB VRAM-GPU stand ich vor einem ständigen Kompromiss: größere Modelle mit potenziell besserer Qualität oder kleinere Modelle mit schnellerer Inference.

TL;DR
Hier ist die Vergleichstabelle der LLM-Leistung auf RTX 4080 16GB mit Ollama 0.15.2:
| Modell | RAM+VRAM verwendet | CPU/GPU-Aufteilung | Tokens/Sekunde |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% | 32.77 |
| devstral-small-2:24b | 19 GB | 18%/82% | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% | 12.64 |
Wichtigste Erkenntnis: Modelle, die vollständig in den VRAM passen, sind dramatisch schneller. GPT-OSS 20B erreicht 139,93 Tokens/Sekunde, während GPT-OSS 120B mit starker CPU-Auslagerung bei 12,64 Tokens/Sekunde kriecht – ein 11-facher Geschwindigkeitsunterschied.
Test-Hardware-Konfiguration
Die Benchmark wurde auf folgendem System durchgeführt:
- GPU: NVIDIA RTX 4080 mit 16GB VRAM
- CPU: Intel Core i7-14700 (8 P-Kerne + 12 E-Kerne)
- RAM: 64GB DDR5-6000
Dies stellt eine häufige High-End-Konsumentenkonfiguration für lokale LLM-Inference dar. Die 16GB VRAM sind die kritische Einschränkung – sie bestimmt, welche Modelle vollständig auf der GPU laufen oder CPU-Auslagerung erfordern.
Das Verständnis wie Ollama Intel-CPU-Kerne nutzt wird wichtig, wenn Modelle die VRAM-Kapazität überschreiten, da die CPU-Leistung direkt die Geschwindigkeit der ausgelagerten Layer-Inference beeinflusst.
Zweck dieser Benchmark
Das Hauptziel war die Messung der Inference-Geschwindigkeit unter realistischen Bedingungen. Ich wusste bereits aus Erfahrung, dass Mistral Small 3.2 24B bei der Sprachqualität hervorragend ist, während Qwen3 14B für meine spezifischen Anwendungsfälle eine überlegene Befolgung von Anweisungen bietet.
Diese Benchmark beantwortet die praktische Frage: Wie schnell kann jedes Modell Text generieren, und welcher Geschwindigkeitsverlust entsteht durch Überschreiten der VRAM-Grenzen?
Die Testparameter waren:
- Kontextgröße: 19.000 Tokens
- Prompt: “Vergleichen Sie Wetter und Klima zwischen den Hauptstadtstädten Australiens”
- Metrik: Auswertungsrate (Tokens pro Sekunde während der Generierung)
Ollama-Installation und Version
Alle Tests wurden mit Ollama Version 0.15.2 durchgeführt, der neuesten Version zum Zeitpunkt der Tests. Für eine vollständige Referenz der in dieser Benchmark verwendeten Ollama-Befehle siehe das Ollama-Cheatblatt.
Um Ollama auf Linux zu installieren:
curl -fsSL https://ollama.com/install.sh | sh
Installation überprüfen:
ollama --version
Wenn Sie Modelle aufgrund von Speicherplatzbeschränkungen auf einer anderen Festplatte speichern müssen, sehen Sie sich an, wie man Ollama-Modelle auf eine andere Festplatte oder einen anderen Ordner verschiebt.
Getestete Modelle
Die folgenden Modelle wurden getestet:
| Modell | Parameter | Quantisierung | Hinweise |
|---|---|---|---|
| gpt-oss:20b | 20B | Q4_K_M | Am schnellsten insgesamt |
| gpt-oss:120b | 120B | Q4_K_M | Größtes getestetes Modell |
| qwen3:14b | 14B | Q4_K_M | Beste Befolgung von Anweisungen |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | Vision-fähig |
| ministral-3:14b | 14B | Q4_K_M | Mistrals effizientes Modell |
| mistral-small3.2:24b | 24B | Q4_K_M | Starke Sprachqualität |
| devstral-small-2:24b | 24B | Q4_K_M | Code-fokussiert |
| glm-4.7-flash | 30B | Q4_K_M | Denkmodell |
| nemotron-3-nano:30b | 30B | Q4_K_M | NVIDIA-Angebot |
Um ein beliebiges Modell herunterzuladen:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
Verständnis von CPU-Auslagerung
Wenn die Speicheranforderungen eines Modells die verfügbare VRAM-Kapazität überschreiten, verteilt Ollama automatisch die Modellschichten zwischen GPU und System-RAM. Die Ausgabe zeigt dies als prozentuale Aufteilung wie “18%/82% CPU/GPU”.
Dies hat massive Auswirkungen auf die Leistung. Jede Token-Generierung erfordert einen Datentransfer zwischen CPU- und GPU-Speicher – eine Flaschenhals, der sich mit jeder auf die CPU ausgelagerten Schicht verstärkt.
Das Muster ist aus unseren Ergebnissen klar:
- 100% GPU-Modelle: 61-140 Tokens/Sekunde
- 70-82% GPU-Modelle: 19-51 Tokens/Sekunde
- 22% GPU (meist CPU): 12,6 Tokens/Sekunde
Dies erklärt, warum ein 20B-Parameter-Modell ein 120B-Modell in der Praxis um das 11-fache übertreffen kann. Wenn Sie planen, mehrere gleichzeitige Anfragen zu bedienen, wird das Verständnis wie Ollama parallele Anfragen verarbeitet für die Kapazitätsplanung entscheidend.
Detaillierte Benchmark-Ergebnisse
Modelle, die 100% auf der GPU laufen
GPT-OSS 20B — Der Geschwindigkeitschampion
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
Mit 139,93 Tokens/Sekunde ist GPT-OSS 20B der klare Gewinner für geschwindigkeitskritische Anwendungen. Es verwendet nur 14GB VRAM, was Spielraum für größere Kontextfenster oder andere GPU-Arbeitslasten lässt.
Qwen3 14B — Ausgezeichnete Balance
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
Qwen3 14B bietet die beste Befolgung von Anweisungen meiner Erfahrung nach, mit einem komfortablen 12GB-Speicher-Fußabdruck. Mit 61,85 Tokens/Sekunde ist es reaktionsschnell genug für interaktive Nutzung.
Für Entwickler, die Qwen3 in Anwendungen integrieren, siehe LLM-Strukturierte Ausgabe mit Ollama und Qwen3 zur Extraktion strukturierter JSON-Antworten.
Ministral 3 14B — Schnell und kompakt
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Mistrals kleineres Modell liefert 70,13 Tokens/Sekunde, während es vollständig in den VRAM passt. Eine solide Wahl, wenn Sie Mistral-Familienqualität bei maximaler Geschwindigkeit benötigen.
Modelle, die CPU-Auslagerung erfordern
Qwen3-VL 30B — Beste teilweise ausgelagerte Leistung
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
Trotz 30% der Schichten auf der CPU hält Qwen3-VL 50,99 Tokens/Sekunde – schneller als einige 100% GPU-Modelle. Die Vision-Fähigkeit fügt Vielseitigkeit für multimodale Aufgaben hinzu.
Mistral Small 3.2 24B — Qualität vs. Geschwindigkeit Kompromiss
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2 bietet überlegene Sprachqualität, zahlt aber einen hohen Geschwindigkeitsaufschlag. Mit 18,51 Tokens/Sekunde fühlt es sich für interaktiven Chat deutlich langsamer an. Es lohnt sich für Aufgaben, bei denen Qualität wichtiger ist als Latenz.
GLM 4.7 Flash — MoE-Denkmodell
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flash ist ein 30B-A3B Mixture of Experts-Modell – 30B Gesamtparameter mit nur 3B aktiv pro Token. Als “Denkmodell” generiert es interne Begründungen vor den Antworten. Die 33,86 Tokens/Sekunde umfassen sowohl Denk- als auch Ausgabetokens. Trotz CPU-Auslagerung hält die MoE-Architektur es relativ schnell.
GPT-OSS 120B — Der Schwergewichtler
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
Das Ausführen eines 120B-Modells auf 16GB VRAM ist technisch möglich, aber schmerzhaft. Mit 78% auf der CPU macht die 12,64 Tokens/Sekunde den interaktiven Gebrauch frustrierend. Besser geeignet für Batch-Verarbeitung, wo Latenz keine Rolle spielt.
Praktische Empfehlungen
Für interaktiven Chat
Verwenden Sie Modelle, die 100% in den VRAM passen:
- GPT-OSS 20B — Maximale Geschwindigkeit (139,93 t/s)
- Ministral 3 14B — Gute Geschwindigkeit mit Mistral-Qualität (70,13 t/s)
- Qwen3 14B — Beste Befolgung von Anweisungen (61,85 t/s)
Für ein besseres Chat-Erlebnis sehen Sie sich Open-Source-Chat-Oberflächen für lokale Ollama an.
Für Batch-Verarbeitung
Wenn Geschwindigkeit weniger kritisch ist:
- Mistral Small 3.2 24B — Überlegene Sprachqualität
- Qwen3-VL 30B — Vision + Text-Fähigkeit
Für Entwicklung und Programmierung
Wenn Sie Anwendungen mit Ollama erstellen:
Alternative Hosting-Optionen
Wenn Sie Bedenken hinsichtlich der Ollama-Einschränkungen haben (siehe Ollama-Enshittification-Bedenken), erkunden Sie andere Optionen im Leitfaden für lokales LLM-Hosting oder vergleichen Sie Docker Model Runner vs. Ollama.
Fazit
Mit 16 GB VRAM können Sie leistungsfähige LLMs in beeindruckender Geschwindigkeit ausführen – wenn Sie klug wählen. Die wichtigsten Erkenntnisse:
-
Bleiben Sie innerhalb der VRAM-Grenzen für interaktive Nutzung. Ein 20B-Modell mit 140 Tokens/Sekunde schlägt ein 120B-Modell mit 12 Tokens/Sekunde für die meisten praktischen Zwecke.
-
GPT-OSS 20B gewinnt in puncto Geschwindigkeit, aber Qwen3 14B bietet das beste Gleichgewicht aus Geschwindigkeit und Fähigkeit für Aufgaben mit Anweisungsfolgemaßnahmen.
-
CPU-Offloading funktioniert, aber erwarten Sie 3- bis 10-fache Verlangsamungen. Akzeptabel für Batch-Verarbeitung, frustrierend für Chat.
-
Kontextgröße ist wichtig. Der hier verwendete 19K-Kontext erhöht den VRAM-Verbrauch erheblich. Reduzieren Sie den Kontext für eine bessere GPU-Nutzung.
Für eine KI-gestützte Suche, die lokale LLMs mit Web-Ergebnissen kombiniert, siehe Selbsthosting von Perplexica mit Ollama.
Nützliche Links
Interne Ressourcen
- Ollama-Cheatblatt: Die nützlichsten Ollama-Befehle
- Wie Ollama parallele Anfragen verarbeitet
- Wie Ollama die Intel-CPU-Leistung und effiziente Kerne nutzt
- Wie man Ollama-Modelle auf eine andere Festplatte oder einen anderen Ordner verschiebt
- Strukturierte Ausgabe von LLMs auf Ollama, Qwen3 & Python oder Go
- Selbsthosting von Perplexica - mit Ollama
- Open-Source-Chat-Oberflächen für LLMs auf lokalen Ollama-Instanzen
- Erste Anzeichen der Ollama-Verschlechterung
- Docker Model Runner vs. Ollama: Was wählen?
- Lokales LLM-Hosting: Kompletter Leitfaden 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & mehr
- Integration von Ollama mit Python: REST-API- und Python-Client-Beispiele
- Go-SDKs für Ollama - Vergleich mit Beispielen