LLM Performance

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ollama auf Intel CPU: Effiziente vs. Leistungscores

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.

Wie Ollama parallele Anfragen verarbeitet

Wie Ollama parallele Anfragen verarbeitet

„Konfigurieren von ollama für parallelle Anfragenbearbeitung.“

Wenn der Ollama-Server zwei Anfragen gleichzeitig erhält, hängt sein Verhalten von seiner Konfiguration und den verfügbaren Systemressourcen ab.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testen der Erkennung logischer Fehlschlüsse

Kürzlich haben wir mehrere neue LLMs gesehen, die veröffentlicht wurden. Aufregende Zeiten. Lassen Sie uns testen und sehen, wie sie sich bei der Erkennung logischer Fehlschlüsse schlagen.

Großer Sprachmodell-Geschwindigkeitstest

Großer Sprachmodell-Geschwindigkeitstest

Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.