Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

LLM-Geschwindigkeitstest auf RTX 4080 mit 16 GB VRAM

Inhaltsverzeichnis

Die Ausführung großer Sprachmodelle lokal bietet Ihnen Privatsphäre, die Möglichkeit, offline zu arbeiten, und null API-Kosten.
Dieser Benchmark zeigt genau, was man von 14 beliebten
LLMs auf Ollama auf einem RTX 4080 erwarten kann.

Mit einer GPU mit 16 GB VRAM stand ich vor einer ständigen Abwägung:
größere Modelle mit potenziell besserer Qualität oder kleinere Modelle mit schnellerer Inferenz.
Mehr zum LLM-Leistung—Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über verschiedene Laufzeiten—siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

LLM-Performance auf Ollama - Re-Ranking von Käfer

TL;DR

Hier ist ein aktualisierter Vergleichstabelle der LLM-Performance auf RTX 4080 16 GB mit Ollama 0.17.7, (2026-03-09) hinzugefügt Qwen 3.5 9b, 9bq8, 27b und 35b Modelle:

Modell RAM+VRAM genutzt CPU/GPU Aufteilung Tokens/sec
gpt-oss:20b 14 GB 100% GPU 139.93
qwen3.5:9b 9.3 GB 100% GPU 90.89
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3.5:9b-q8_0 13 GB 100% GPU 61.22
qwen3-coder:30b 20 GB 25%/75% CPU/GPU 57.17
qwen3-vl:30b-a3b 22 GB 30%/70% CPU/GPU 50.99
glm-4.7-flash 21 GB 27%/73% CPU/GPU 33.86
nemotron-3-nano:30b 25 GB 38%/62% CPU/GPU 32.77
qwen3.5:35b 27 GB 43%/57% CPU/GPU 20.66
devstral-small-2:24b 19 GB 18%/82% CPU/GPU 18.67
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 18.51
gpt-oss:120b 66 GB 78%/22% CPU/GPU 12.64
qwen3.5:27b 24 GB 43%/57% CPU/GPU 6.48

Schlüsselinsicht: Modelle, die vollständig in VRAM passen, sind deutlich schneller. GPT-OSS 20B erreicht 139.93 Tokens/sec, während GPT-OSS 120B mit schwerer CPU-Verlagerung nur 12.64 Tokens/sec erreicht—ein 11-facher Geschwindigkeitsunterschied.

Test-Hardware-Setup

Der Benchmark wurde auf folgendem System durchgeführt:

  • GPU: NVIDIA RTX 4080 mit 16 GB VRAM
  • CPU: Intel Core i7-14700 (8 P-Kerne + 12 E-Kerne)
  • RAM: 64 GB DDR5-6000

Dies stellt eine typische High-End-Konfiguration für lokale LLM-Inferenz dar.
Die 16 GB VRAM ist die entscheidende Einschränkung—sie bestimmt, welche Modelle vollständig auf der GPU laufen, und welche CPU-Verlagerung benötigen.

Das Verständnis von wie Ollama Intel-CPU-Kerne verwendet wird wichtig, wenn Modelle die VRAM-Grenze überschreiten, da die CPU-Leistung direkt den Geschwindigkeit der verlagerungsschichten beeinflusst.

Zweck dieses Benchmarks

Das primäre Ziel war die Messung der Inferenzgeschwindigkeit unter realistischen Bedingungen. Ich wusste bereits aus Erfahrung, dass Mistral Small 3.2 24B bei der Sprachqualität hervorragt, während Qwen3 14B für meine spezifischen Anwendungsfälle eine überlegene Befehlsfolge bietet.

Dieser Benchmark beantwortet die praktische Frage: Wie schnell kann jedes Modell Text generieren und was ist die Geschwindigkeitsstrafe für das Überschreiten der VRAM-Grenzen?

Die Testparameter waren:

  • Kontextgröße: 19.000 Tokens. Dies ist der durchschnittliche Wert in meinen Generierungsanfragen.
  • Prompt: “Vergleiche Wetter und Klima zwischen Hauptstädten Australiens”
  • Metrik: Eval Rate (Tokens pro Sekunde während der Generierung)

Ollama-Installation und Version

Alle Tests verwendeten Ollama Version 0.15.2, die neueste Version zur Zeit des Tests.
Später wurde erneut auf Ollama v 0.17.7 durchgeführt, um Qwen3.5-Modelle hinzuzufügen.
Für eine vollständige Referenz der in diesem Benchmark verwendeten Ollama-Befehle, siehe Ollama Cheatsheet.

Zum schnellen Nachschlagen: Ollama auf Linux installieren:

curl -fsSL https://ollama.com/install.sh | sh

Installation prüfen:

ollama --version

Wenn Sie aufgrund von Speicherbeschränkungen Modelle auf einem anderen Laufwerk speichern müssen, schauen Sie sich an wie Sie Ollama-Modelle auf ein anderes Laufwerk verschieben können.

Getestete Modelle

Die folgenden Modelle wurden getestet, alphabetisch geordnet:

Modell Parameter Quantisierung Notizen
devstral-small-2:24b 24B Q4_K_M Code-fokussiert
glm-4.7-flash 30B Q4_K_M Denkmodell
gpt-oss:20b 20B Q4_K_M Schnellstes insgesamt
gpt-oss:120b 120B Q4_K_M Größtes getestete
ministral-3:14b 14B Q4_K_M Effizientes Modell von Mistral
mistral-small3.2:24b 24B Q4_K_M Starke Sprachqualität
nemotron-3-nano:30b 30B Q4_K_M NVIDIA-Angebot
qwen3:14b 14B Q4_K_M Beste Befehlsfolge
qwen3.5:9b 9B Q4_K_M Schnell, vollständig GPU
qwen3.5:9b-q8_0 9B Q8_0 Höhere Qualität, vollständig GPU
qwen3.5:27b 27B Q4_K_M Ausgezeichnete Qualität, langsam auf Ollama
qwen3-vl:30b-a3b 30B Q4_K_M Vision-fähig
qwen3-coder:30b 30B Q4_K_M Code-fokussiert
qwen3.5:35b 35B Q4_K_M Gute Codierungsfähigkeiten

Um ein Modell herunterzuladen:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

Verständnis der CPU-Verlagerung

Wenn die Speicheranforderungen eines Modells die verfügbare VRAM überschreiten, verteilt Ollama automatisch Schichten zwischen GPU und System RAM. Das Ergebnis zeigt dies als Prozentsatz auf, z. B. “18%/82% CPU/GPU”.

Dies hat massive Leistungsfolgen. Jeder Token-Generierung erfordert Datenübertragung zwischen CPU und GPU-Speicher—ein Engpass, der sich mit jeder verlagerter Schicht verschlimmert.

Das Muster ist klar aus unseren Ergebnissen:

  • 100% GPU-Modelle: 61–140 Tokens/sec
  • 70–82% GPU-Modelle: 19–51 Tokens/sec
  • 22% GPU (meist CPU): 12,6 Tokens/sec

Dies erklärt, warum ein 20B-Parametermodell in der Praxis ein 11-faches Ergebnis erzielen kann. Wenn Sie planen, mehrere parallele Anfragen zu bedienen, wird das Verständnis von wie Ollama parallele Anfragen behandelt für die Kapazitätsplanung entscheidend.

Detaillierte Benchmark-Ergebnisse

Modelle, die 100% auf der GPU laufen

GPT-OSS 20B – Der Geschwindigkeits-Champion

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

Mit 139.93 Tokens/sec ist GPT-OSS 20B klarer Sieger für Geschwindigkeitskritische Anwendungen. Es verwendet nur 14 GB VRAM, was Platz für größere Kontextfenster oder andere GPU-Aufgaben lässt.

Qwen3 14B – Ausgezeichnetes Gleichgewicht

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

Qwen3 14B bietet in meiner Erfahrung die beste Befehlsfolge mit einem bequemen Speicherbedarf von 12 GB. Mit 61.85 Tokens/sec ist es für interaktive Verwendung ausreichend schnell.

Für Entwickler, die Qwen3 in Anwendungen integrieren, siehe LLM Strukturierte Ausgabe mit Ollama und Qwen3 für das Extrahieren von strukturierten JSON-Antworten.

Ministral 3 14B – Schnell und kompakt

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Das kleinere Modell von Mistral liefert 70.13 Tokens/sec und passt vollständig in die VRAM. Eine solide Wahl, wenn Sie Mistral-Familienqualität bei maximaler Geschwindigkeit benötigen.

qwen3.5:9b - schnell und neu

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8 Quantisierung

Diese Quantisierung senkt die Leistung von qwen3.5:9b um 30 % im Vergleich zu q4.

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

Modelle, die CPU-Verlagerung benötigen

qwen3-coder:30b - schnellster aus der 30b LLM-Gruppe aufgrund der Text-only-Eigenschaft

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — Beste Leistung mit teilweiser Verlagerung

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

Trotz 30 % der Schichten auf der CPU, hält Qwen3-VL 50.99 Tokens/sec bei. Schneller als einige 100% GPU-Modelle. Die Visionseigenschaft fügt Vielseitigkeit für multimodale Aufgaben hinzu.

Mistral Small 3.2 24B — Qualität vs. Geschwindigkeit

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2 bietet überlegene Sprachqualität, zahlt jedoch eine hohe Geschwindigkeitsstrafe. Mit 18.51 Tokens/sec fühlt es sich für interaktive Chat-Unterhaltungen merklich langsamer an. Es lohnt sich für Aufgaben, bei denen Qualität wichtiger ist als Latenz.

GLM 4.7 Flash — MoE-Denkmuster

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flash ist ein 30B-A3B Mischmodell—30B Gesamtparameter mit nur 3B aktiv pro Token. Als “Denkmodell” generiert es interne Überlegungen vor Antworten. Die 33.86 Tokens/sec beinhaltet sowohl denk- als auch Ausgabetoken. Trotz CPU-Verlagerung hält die MoE-Architektur es vernünftig schnell.

qwen3.5:35b - Neues Modell mit durchschnittlicher Selbsthosted-Leistung

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — Der schwere Hitter

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

Das Ausführen eines 120B-Modells auf 16 GB VRAM ist technisch möglich, aber unangenehm. Mit 78 % auf der CPU, macht die 12.64 Tokens/sec interaktive Nutzung frustrierend. Besser geeignet für Batch-Verarbeitung, bei der Latenz nicht wichtig ist.

qwen3.5:27b - intelligent, aber langsam auf Ollama

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

Ich habe qwen3.5:27b getestet und erhielt eine extrem gute Meinung zu dieser Modellleistung mit OpenCode.
Es ist sehr fähig, wissensreich, wirklich gut für Toolaufrufe, obwohl es auf meinem Gerät auf Ollama langsam ist.
Ich habe andere LLM-Selbsthosting-Plattformen ausprobiert und erhielt viel höhere Geschwindigkeiten.
Ich glaube, es ist an der Zeit, Ollama zu verlassen.
Ich werde später etwas darüber schreiben.

Praktische Empfehlungen

Für interaktiven Chat

Verwenden Sie Modelle, die vollständig in VRAM passen:

  1. GPT-OSS 20B — Maximale Geschwindigkeit (139.93 t/s)
  2. Ministral 3 14B — Gute Geschwindigkeit mit Mistral-Qualität (70.13 t/s)
  3. Qwen3 14B — Beste Befehlsfolge (61.85 t/s)

Für eine bessere Chat-Erfahrung, betrachten Sie Open-Source Chat UIs für lokale Ollama.

Für Batch-Verarbeitung

Dies ist erneut, auf meiner Ausrüstung - 14 GB VRAM.

Wenn Geschwindigkeit weniger kritisch ist:

  • Mistral Small 3.2 24B — Überlegene Sprachqualität
  • Qwen3-VL 30B — Vision + Text-Fähigkeit

Wenn Geschwindigkeit überhaupt nicht kritisch ist:

  • Qwen3.5:35b - Gute Codierungsfähigkeit
  • Qwen3.5:27b - Sehr gut, aber langsam auf Ollama. Ich hatte eine sehr gute Erfahrung mit diesem Modell auf llama.cpp.

Für Entwicklung und Codierung

Wenn Sie Anwendungen mit Ollama erstellen:

Alternativen für Hosting

Wenn Sie sich von den Grenzen von Ollama besorgt sind (siehe Ollama Enshittification-Bedenken), erkunden Sie andere Optionen in der Leitfaden für lokales LLM-Hosting oder vergleichen Sie Docker Model Runner vs Ollama.

Schlussfolgerung

Mit 16 GB VRAM können Sie fähige LLMs mit beeindruckenden Geschwindigkeiten ausführen, wenn Sie klug wählen. Die wichtigsten Erkenntnisse:

  1. Bleiben Sie innerhalb der VRAM-Grenzen für interaktive Nutzung. Ein 20B-Modell mit 140 Tokens/sec schlägt ein 120B-Modell mit 12 Tokens/sec für die meisten praktischen Zwecke.

  2. GPT-OSS 20B gewinnt bei reiner Geschwindigkeit, aber Qwen3 14B bietet das beste Gleichgewicht zwischen Geschwindigkeit und Fähigkeiten für Aufgaben mit Befehlsfolge.

  3. CPU-Verlagerung funktioniert, erwarten Sie aber 3–10-fache Verlangsamung. Akzeptabel für Batch-Verarbeitung, frustrierend für Chat.

  4. Kontextgröße ist wichtig. Die hier verwendete 19K Kontext erhöht den VRAM-Verbrauch erheblich. Reduzieren Sie den Kontext für eine bessere GPU-Nutzung.

Für AI-gestützte Suche, die lokale LLMs mit Web-Ergebnissen kombiniert, siehe Selbsthosting von Perplexica mit Ollama.

Um weitere Benchmarks, VRAM- und Durchsatz-Handelabwägungen und Leistungsanpassungen über Ollama und andere Laufzeiten zu erkunden, prüfen Sie unsere LLM-Performance: Benchmarks, Bottlenecks & Optimization Hub.

Interne Ressourcen

Externe Referenzen