LLM Performance

Spekulative Dekodierung: 20–50 % schnellere LLM-Inferenz

Ein 70B-Modell erzeugt pro Vorwärtsdurchlauf (Forward Pass) genau ein Token, und bei jedem Durchlauf werden Gewichte aus dem VRAM nachgeladen, die Aufmerksamkeit (Attention) über den Kontext berechnet und der Speicher synchronisiert. Zwischen den Tokens ist die GPU untätig, während sie auf die Auflösung sequentieller Abhängigkeiten wartet.

Qwen 3.6 27B und 35B MTP gegenüber Standard auf 16-GB-GPU

Ich habe die Leistung von spekulativem Decoding (Multi-Token Prediction, MTP) bei Qwen 3.6 27B und 35B auf einer RTX 4080 mit 16 GB VRAM getestet.

Strukturierte Ausgabevalidierung von LLMs in Python, die standhält

Die meisten Tutorials zu „strukturierten Ausgaben“ von LLMs sind wenig ernst gemeint. Sie lehren Sie, höflich um JSON zu bitten und darauf zu hoffen, dass das Modell sich entsprechend verhält. Das ist keine Validierung. Das ist Optimismus mit geschweiften Klammern.

Referenz zu den agentenbasierten LLM-Inferenzparametern für Qwen und Gemma

Diese Seite dient als praktische Referenz für die Optimierung der agentischen LLM-Inferenz (Temperatur, top_p, top_k, Penalties und deren Interaktion in mehrstufigen und tool-lastigen Workflows).

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für die Selbsthosting-Nutzung aus.

LLM-Leistung im Jahr 2026: Benchmarks, Engpässe und Optimierung

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Das lokale Ausführen großer Sprachmodelle bietet Datenschutz, Offline-Funktionalität und null API-Kosten. Dieser Benchmark zeigt genau auf, was man von 14 beliebten LLMs auf Ollama mit einer RTX 4080 erwarten kann.

BAML vs. Instructor: Strukturierte LLM-Ausgaben

Bei der Arbeit mit Large Language Models (LLMs) in der Produktion ist es entscheidend, strukturierte und typsichere Outputs zu erhalten. Zwei beliebte Frameworks – BAML und Instructor – verfolgen unterschiedliche Ansätze, um dieses Problem zu lösen.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Ich habe einige interessante Leistungsbenchmarks von GPT-OSS 120b gefunden, die auf Ollama unter drei verschiedenen Plattformen durchgeführt wurden: NVIDIA DGX Spark, Mac Studio und RTX 4080. Der GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass er nicht in die 16 GB VRAM des RTX 4080 (oder der neueren RTX 5080) passt.

LLM-ASICs und spezialisierte Inferenzchips (warum sie wichtig sind)

Die Zukunft von KI besteht nicht nur in intelligenteren Modellen. Es geht auch um Silizium, das auf die Art und Weise zugeschnitten ist, wie diese Modelle tatsächlich bereitgestellt werden. Spezialisierte Hardware für die LLM-Inferenz folgt einem Pfad, der an den Wechsel von GPUs zu eigens gebauten ASICs beim Bitcoin-Mining erinnert, jedoch mit schwierigeren Randbedingungen, da sich Modelle und Präzisionsrezepte ständig weiterentwickeln.

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b, der sich auf die Befehlsausführung und Leistungsparameter, Spezifikationen und Geschwindigkeit konzentriert.

Ollama GPT-OSS Strukturierte Ausgabeprobleme

Ollama’s GPT-OSS-Modelle haben wiederkehrende Probleme bei der Verarbeitung strukturierter Ausgaben, insbesondere wenn sie mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen verwendet werden.

Vergleich strukturierter Ausgaben bei führenden LLM-Anbietern – OpenAI, Gemini, Anthropic, Mistral und AWS Bedrock

Hier ist ein direkter Vergleich der Unterstützung für strukturierte Ausgabe (verlässliche Rückgabe von JSON) bei populären LLM-Anbietern, ergänzt um minimale Python-Beispiele.

Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell allokiert wie viel VRAM neue Version von Ollama für das Modell allokiert
im Vergleich zur vorherigen Ollama-Version. Die neue Version ist schlechter.

LLM-Leistung und PCIe-Slots: Wichtige Aspekte

Wie PCIe-Lanes die Leistung von LLMs beeinflussen? Je nach Aufgabe. Bei Training und Multi-GPU- Inferenz ist der Leistungsverlust erheblich.

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.