LLM Performance

Strukturierte Ausgabevalidierung von LLMs in Python, die standhält

Strukturierte Ausgabevalidierung von LLMs in Python, die standhält

Hören Sie auf, auf Vibes zu vertrauen. Validieren Sie Verträge.

Die meisten Tutorials zu „strukturierten Ausgaben“ von LLMs sind wenig ernst gemeint. Sie lehren Sie, höflich um JSON zu bitten und darauf zu hoffen, dass das Modell sich entsprechend verhält. Das ist keine Validierung. Das ist Optimismus mit geschweiften Klammern.

BAML vs. Instructor: Strukturierte LLM-Ausgaben

BAML vs. Instructor: Strukturierte LLM-Ausgaben

Typsichere LLM-Ausgaben mit BAML und Instructor

Bei der Arbeit mit Large Language Models (LLMs) in der Produktion ist es entscheidend, strukturierte und typsichere Outputs zu erhalten. Zwei beliebte Frameworks – BAML und Instructor – verfolgen unterschiedliche Ansätze, um dieses Problem zu lösen.

LLM-ASICs und spezialisierte Inferenzchips (warum sie wichtig sind)

LLM-ASICs und spezialisierte Inferenzchips (warum sie wichtig sind)

ASICs und maßgeschneiderte Chips steigern Geschwindigkeit und Effizienz der LLM-Inferenz.

Die Zukunft von KI besteht nicht nur in intelligenteren Modellen. Es geht auch um Silizium, das auf die Art und Weise zugeschnitten ist, wie diese Modelle tatsächlich bereitgestellt werden. Spezialisierte Hardware für die LLM-Inferenz folgt einem Pfad, der an den Wechsel von GPUs zu eigens gebauten ASICs beim Bitcoin-Mining erinnert, jedoch mit schwierigeren Randbedingungen, da sich Modelle und Präzisionsrezepte ständig weiterentwickeln.

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ollama auf Intel CPU: Effiziente vs. Leistungscores

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.