LLM Performance

Wie Ollama parallele Anfragen verarbeitet

Wie Ollama parallele Anfragen verarbeitet

Verstehen Sie die Parallelität und Warteschlangentechnik von Ollama und lernen Sie, wie Sie OLLAMA_NUM_PARALLEL für stabile parallele Anfragen optimieren.

Dieser Leitfaden erklärt, wie Ollama parallele Anfragen verarbeitet (Parallelität, Warteschlangen und Ressourcenlimits), und wie Sie dies über die OLLAMA_NUM_PARALLEL-Umgebungsvariable (und verwandte Einstellungen) optimieren können.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testen der Erkennung logischer Fehlschlüsse

Kürzlich haben wir mehrere neue LLMs gesehen, die veröffentlicht wurden. Aufregende Zeiten. Lassen Sie uns testen und sehen, wie sie sich bei der Erkennung logischer Fehlschlüsse schlagen.

Großer Sprachmodell-Geschwindigkeitstest

Großer Sprachmodell-Geschwindigkeitstest

Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.