Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 und Phi – LLM-Test
Nächster Testlauf der LLMs
Vor nicht allzu langer Zeit wurde veröffentlicht. Lassen Sie uns aufschließen und testen Sie, wie Mistral Small sich im Vergleich zu anderen LLMs schlägt.
Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.
Bevor wir das bereits getan haben:

Wie wir testen
Hier testen wir die Zusammenfassungsfähigkeiten von LLMS:
- wir haben 40 Beispieltexte und führen LLM mit der Frage- und Zusammenfassungsprompt-Aufforderung durch (ähnlich wie bei perplexica )
- erneut sortierte Zusammenfassungen mit Embedding-Modellen
- die Anzahl der richtigen Antworten geteilt durch die Gesamtzahl der Fragen ergibt die Leistung des Modells
Testergebnis
Top 5 Plätze mit dem Durchschnittsprozentsatz der richtigen Antworten:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Alle diese Modelle haben eine gute Leistung gezeigt.
Ich würde etwas mehr Aufmerksamkeit auf die Mistral-Modellgruppe richten. Die Sprachqualität ist etwas besser als der Durchschnitt.
Ein weiterer Punkt – der kleine 3,2b-Modell llama3.2:3b-instruct-q8_0 zeigte ein sehr gutes Ergebnis für seine Größe und ist von allen am schnellsten.
Detaillierte Testergebnisse
| Modellname, Parameter, Quantisierung | Größe | Test 1 | Test 2 | Durchschnitt |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Für weitere Benchmarks, Modellauswahl und Leistungsfeinabstimmung, prüfen Sie unseren LLM Performance: Benchmarks, Bottlenecks & Optimization Hub.