Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 und Phi – LLM-Test
Nächster Testlauf der LLMs
Inhaltsverzeichnis
Vor nicht allzu langer Zeit wurde veröffentlicht. Lassen Sie uns aufschließen und
testen, wie Mistral Small sich im Vergleich zu anderen LLMs schlägt.
Davor haben wir bereits durchgeführt:
Wie wir testen
Hier testen wir die Zusammenfassungsfähigkeiten von LLMS:
- wir haben 40 Beispieltexte und führen das LLM mit der Frage- und Zusammenfassungsprompt-Aufforderung durch (ähnlich wie bei perplexica)
- Wiederholte Zusammenfassungen mit Embedding-Modellen
- Die Anzahl der richtigen Antworten geteilt durch die Gesamtzahl der Fragen ergibt die Leistung des Modells
Testergebnis
Top 5 Plätze mit dem Durchschnittsprozentsatz der richtigen Antworten:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Alle diese Modelle haben eine gute Leistung gezeigt.
Ich würde etwas mehr Aufmerksamkeit auf die Mistral-Modellgruppe richten. Die Sprachqualität ist etwas besser als der Durchschnitt.
Ein weiterer Punkt – das kleine 3,2-GB-Modell llama3.2:3b-instruct-q8_0 zeigte ein非常好的 Ergebnis für seine Größe und ist die schnellste unter allen.
Detaillierte Testergebnisse
Modellname, Parameter, Quantisierung | Größe | Test 1 | Test 2 | Durchschnitt |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Nützliche Links
- Python Cheatsheet
- Schreiben effektiver Prompts für LLMs
- Testen von LLMs: gemma2, qwen2 und Mistral Nemo
- Installieren und Konfigurieren von Ollama
- Reranking mit Embedding-Modellen
- Conda Cheatsheet
- Ollama Cheatsheet
- Docker Cheatsheet
- cURL Cheatsheet
- Wie Ollama parallelle Anfragen verarbeitet
- Test: Wie Ollama Intel-CPU-Performance und effiziente Kerne nutzt