Was bedeutet eine geringe GPU-Auslastung beim Betrieb eines LLM mit llama.cpp?

Oft verbleiben viele Schichten auf der CPU, wodurch die Token-Geschwindigkeit stark sinkt. Sie können versuchen, die GPU-Schicht-Offload mit ngl zu erhöhen, eine kleinere Quantisierung zu wählen oder den Kontext zu verkürzen, damit mehr vom Modell auf der GPU Platz findet.

Wie wirkt sich ein längeres Kontextfenster auf die Token pro Sekunde bei 16 GB VRAM aus?

Eine längere Kontextlänge erhöht den KV-Cache und den VRAM-Verbrauch, was die Token pro Sekunde reduzieren oder eine teilweise Offloading erfordern kann. Kürzere Kontexte, kleinere Modelle oder aggressivere Quantisierungen helfen, die Geschwindigkeit auf einer einzelnen 16-GB-Karte hoch zu halten.

Welche Kompromisse bei der Quantisierung sind für das Laden großer Modelle auf 16 GB relevant?

Quantisierungen mit niedrigerer Bitbreite verbrauchen weniger VRAM und können die Tokens pro Sekunde erhöhen, beeinträchtigen jedoch möglicherweise die Qualität. IQ3- und IQ4-artige Quantisierungen sind gängige Kompromisse für llama.cpp auf einer GPU mit 16 GB, wenn ein langer Kontext oder größere Checkpoints erforderlich sind.

Können Mixture-of-Experts-Modelle auf einer einzigen 16-GB-GPU schnell laufen?

MoE-Modelle können eine hohe Anzahl an Tokens pro Sekunde erreichen, da bei jedem Forward-Schritt nur ein Teil des Netzwerks aktiv ist. Dennoch benötigen Sie ausreichend VRAM für die aktiven Experten, die Gewichte sowie den KV-Cache bei der gewählten Kontextlänge.

Was können Sie tun, wenn ein Kontext von 64K auf derselben GPU deutlich langsamer ist als ein Kontext von 32K?

Stellen Sie mit ngl ein, wie viele Schichten auf der GPU geladen werden, akzeptieren Sie einen kürzeren Kontext, falls dies für Ihre Aufgabe geeignet ist, oder wechseln Sie zu einer leichteren Quantisierung, damit mehr Schichten auf dem Gerät verbleiben und der Druck auf die KV-Cache verringert wird.

16 GB VRAM LLM-Benchmarks mit llama.cpp (Geschwindigkeit und Kontext)

Token-Verarbeitungsgeschwindigkeit von llama.cpp auf 16 GB VRAM (Tabellen).

Inhaltsverzeichnis

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Self-Hosting-Einsatz.

Ich habe diese LLMs mit llama.cpp mit Kontextfenstern von 19K, 32K und 64K Tokens ausgeführt.

Stylisierte GPU mit VRAM-Blöcken und Benchmark-Diagrammen

In diesem Beitrag dokumentiere ich meine Versuche, in Bezug auf Geschwindigkeit so viel Leistung wie möglich herauszuholen.

LLM-Geschwindigkeitsvergleichstabelle (Tokens pro Sekunde und VRAM)

Modell	Größe	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K Load	32K T/s	64K VRAM	64K Load	64K T/s
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
nvidia Nemotron-Cascade-2-30B IQ4_XS	18.2	14.6	60/305	115.8	14.7	57/311	113.6	14.7	55/324	103.4
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K, 32K und 64K sind die Kontextgrößen.

Die oben genannte load ist eine GPU-Auslastung. Wenn Sie in dieser Spalte eine niedrige Zahl sehen, bedeutet das, dass das Modell hauptsächlich auf der CPU läuft und auf dieser Hardware keine ordentliche Geschwindigkeit erzielen kann. Dieses Muster stimmt mit dem überein, was man beobachtet, wenn zu wenig vom Modell auf die GPU passt oder wenn der Kontext die Arbeit zurück auf den Host drückt.

Über llama.cpp, LLM-Leistung, OpenCode und andere Vergleiche

Wenn Sie Installationspfade, llama-cli- und llama-server-Beispiele sowie die für VRAM und Tokens pro Sekunde (Kontextgröße, Batch-Verarbeitung, -ngl) wichtigen Flaggs benötigen, beginnen Sie mit llama.cpp Quickstart mit CLI und Server.

Für das umfassendere Leistungsprofil (Durchsatz gegenüber Latenz, VRAM-Grenzen, parallele Anfragen und wie Benchmarks über Hardware und Laufzeitumgebungen hinweg zusammenpassen), siehe LLM-Leistung 2026: Benchmarks, Engpässe und Optimierung.

Die Qualität der Antworten wird in anderen Artikeln analysiert, zum Beispiel:

Beste LLMs für OpenCode – Lokal getestet. Weitere Informationen zu OpenCode finden Sie unter OpenCode Quickstart: Installieren, Konfigurieren und Nutzen des Terminal-AI-Coding-Agenten.
Vergleich der Hugo-Seiten-Übersetzungsqualität – LLMs auf Ollama

Ich habe ähnliche Tests für LLMs auf Ollama durchgeführt: Beste LLMs für Ollama auf 16 GB VRAM GPU.

Warum sich die Kontextlänge auf die Tokens pro Sekunde auswirkt

Wenn Sie von 19K auf 32K oder 64K Tokens wechseln, wächst der KV-Cache und der VRAM-Druck steigt. Einige Zeilen zeigen einen starken Rückgang der Tokens pro Sekunde bei 64K, während andere konstant bleiben; dies ist ein Signal, Quantisierungen, Kontextgrenzen oder Layer-Offloading zu überprüfen, anstatt anzunehmen, dass das Modell allgemein „langsam" ist.

Die Modelle und Quantisierungen, die ich zum Testen ausgewählt habe, dienen dazu, selbst zu prüfen, ob sie auf dieser Ausrüstung einen guten Nutzen im Sinne von Kosten-Nutzen-Verhältnis bieten oder nicht. Also hier keine q8-Quantisierungen mit 200k Kontext :) …

GPU/CPU ist eine Auslastung, gemessen mit nvitop.

Wenn llama.cpp die Layer automatisch zur GPU entlastet, versucht es, 1 GB frei zu halten. Wir spezifizieren diesen Parameter manuell über den Kommandozeilenparameter -ngl, aber ich optimiere ihn hier nicht, sondern möchte nur verstehen, dass wir bei einem signifikanten Leistungsabfall bei Erhöhung der Kontextfenstergröße von 32k auf 64k versuchen können, die Geschwindigkeit bei 64k zu erhöhen, indem wir die Anzahl der entladenen Layer optimieren.

Testhardware und llama.cpp-Einrichtung

Ich habe die LLM-Geschwindigkeit auf einem PC mit folgender Konfiguration getestet:

CPU i-14700
RAM 64GB 6000Hz (2x32GB)
GPU RTX-4080
Ubuntu mit NVidia-Treibern
llama.cpp/llama-cli, keine entladenen Layer spezifiziert
Anfangs genutzter VRAM, bevor llama-cli gestartet wurde: 300MB

Zusätzliche Läufe mit 128K Kontext (Qwen3.5 27B und 122B)

Modell	128K Load	128K T/s
Qwen3.5-27B-UD-IQ3_XXS	16/625	9.6
Qwen3.5-122B-A10B-UD-IQ3_XXS	27/496	19.2

Erkenntnisse für 16 GB VRAM-Builds

Mein aktueller Favorit Qwen3.5-27B-UD-IQ3_XXS sieht in seinem Sweet-Spot bei 50k Kontext gut aus (ich erhalte ca. 36t/s).
Qwen3.5-122B-A10B-UD-IQ3_XXS übertrifft leistungsbezogen den Qwen3.5 27B bei Kontexten über 64K.
Ich kann Qwen3.5-35B-A3B-UD-IQ3_S dazu bringen, Kontexte von 100k Tokens zu bewältigen, und es passt in den VRAM, sodass es keinen Leistungsabfall gibt.
Ich werde gemma-4-31B auf 16 GB VRAM nicht verwenden, aber gemma-4-26B könnte mittelgut sein …, muss getestet werden.
Es muss getestet werden, wie gut Nemotron Cascade 2 und GLM-4.7 Flash REAP 23B funktionieren. Werden sie besser sein als Qwen3.5-35B q3? Ich zweifle, aber trotzdem teste ich es, um den Verdacht zu bestätigen.