Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 und Phi – LLM-Test

Nächster Testlauf der LLMs

Inhaltsverzeichnis

Vor nicht allzu langer Zeit wurde veröffentlicht. Lassen Sie uns aufschließen und
testen, wie Mistral Small sich im Vergleich zu anderen LLMs schlägt.

Davor haben wir bereits durchgeführt:

Ein Auto fährt schnell

Wie wir testen

Hier testen wir die Zusammenfassungsfähigkeiten von LLMS:

  • wir haben 40 Beispieltexte und führen das LLM mit der Frage- und Zusammenfassungsprompt-Aufforderung durch (ähnlich wie bei perplexica)
  • Wiederholte Zusammenfassungen mit Embedding-Modellen
  • Die Anzahl der richtigen Antworten geteilt durch die Gesamtzahl der Fragen ergibt die Leistung des Modells

Testergebnis

Top 5 Plätze mit dem Durchschnittsprozentsatz der richtigen Antworten:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Alle diese Modelle haben eine gute Leistung gezeigt.

Ich würde etwas mehr Aufmerksamkeit auf die Mistral-Modellgruppe richten. Die Sprachqualität ist etwas besser als der Durchschnitt.

Ein weiterer Punkt – das kleine 3,2-GB-Modell llama3.2:3b-instruct-q8_0 zeigte ein非常好的 Ergebnis für seine Größe und ist die schnellste unter allen.

Detaillierte Testergebnisse

Modellname, Parameter, Quantisierung Größe Test 1 Test 2 Durchschnitt
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75