Performance

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Hugo-Caching-Strategien für die Leistung

Hugo-Caching-Strategien sind entscheidend für die Maximierung der Leistung Ihres statischen Site-Generators. Während Hugo statische Dateien generiert, die von Natur aus schnell sind, kann die Implementierung einer ordnungsgemäßen Caching-Strategie auf mehreren Ebenen die Build-Zeiten deutlich verbessern, die Serverlast reduzieren und die Benutzererfahrung optimieren.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Ich habe einige interessante Leistungsbenchmarks von GPT-OSS 120b gefunden, die auf Ollama unter drei verschiedenen Plattformen durchgeführt wurden: NVIDIA DGX Spark, Mac Studio und RTX 4080. Der GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass er nicht in die 16 GB VRAM des RTX 4080 (oder der neueren RTX 5080) passt.

Ollama GPT-OSS Strukturierte Ausgabeprobleme

Ollama’s GPT-OSS-Modelle haben wiederkehrende Probleme bei der Verarbeitung strukturierter Ausgaben, insbesondere wenn sie mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen verwendet werden.

Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell allokiert wie viel VRAM neue Version von Ollama für das Modell allokiert
im Vergleich zur vorherigen Ollama-Version. Die neue Version ist schlechter.

LLM-Leistung und PCIe-Slots: Wichtige Aspekte

Wie PCIe-Lanes die Leistung von LLMs beeinflussen? Je nach Aufgabe. Bei Training und Multi-GPU- Inferenz ist der Leistungsverlust erheblich.

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.

Wie Ollama parallele Anfragen verarbeitet

Wenn der Ollama-Server zwei Anfragen gleichzeitig erhält, hängt sein Verhalten von seiner Konfiguration und den verfügbaren Systemressourcen ab.

Vor nicht allzu langer Zeit wurde veröffentlicht. Lassen Sie uns aufschließen und testen Sie, wie Mistral Small sich im Vergleich zu anderen LLMs schlägt.

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.