Welche LLMs erbringen die beste Leistung bei der Zusammenfassung?

In Benchmarks an 40 Beispieltexten erzielten Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b und Llama3.2 3b Ergebnisse im oberen Bereich (etwa 79–82 % korrekt). Beide Modellgröße und Quantisierung beeinflussen die Ergebnisse.

Ist Mistral Small gut für Zusammenfassungen?

Ja. Mistral Small 22b instruct (q4_0) erreichte bei summarisierenden Tests etwa 81 % korrekte Ergebnisse und wird häufig aufgrund der überdurchschnittlichen Sprachqualität im Vergleich zu ähnlichen Modellen hervorgehoben.

Sind kleinere LLMs für die Zusammenfassung nützlich?

Ja. Llama3.2 3b instruct (q8_0) erreichte in den gleichen Tests etwa 79 % und war die schnellste, wodurch kleine Modelle eine gute Option sind, wenn Geschwindigkeit oder Ressourennutzung eine Rolle spielen.

Wie wird die Leistung der LLM-Zusammenfassung bewertet?

Ein gängiger Ansatz besteht darin, das Modell auf vielen Beispieltexten mit einem Zusammenfassungsprompt laufen zu lassen, anschließend die korrekten Antworten zu bewerten (z. B. durch Einbettungs-Reranking) und den Anteil der korrekten Antworten oder den Durchschnittswert der Bewertung zu melden.

Wo kann ich mehr über die Leistung und Benchmarks von LLMs finden?

Unser LLM-Performance-Hub behandelt Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über Laufzeiten und Hardware.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 und Phi – LLM-Test

Nächster Testlauf der LLMs

Inhaltsverzeichnis

Vor nicht allzu langer Zeit wurde veröffentlicht. Lassen Sie uns aufschließen und testen Sie, wie Mistral Small sich im Vergleich zu anderen LLMs schlägt.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Bevor wir das bereits getan haben:

Testen der Erkennung logischer Fehlschlüsse durch neue LLMs: gemma2, qwen2 und mistralNemo

Auto fährt schnell

Wie wir testen

Hier testen wir die Zusammenfassungsfähigkeiten von LLMS:

wir haben 40 Beispieltexte und führen LLM mit der Frage- und Zusammenfassungsprompt-Aufforderung durch (ähnlich wie bei perplexica )
erneut sortierte Zusammenfassungen mit Embedding-Modellen
die Anzahl der richtigen Antworten geteilt durch die Gesamtzahl der Fragen ergibt die Leistung des Modells

Testergebnis

Top 5 Plätze mit dem Durchschnittsprozentsatz der richtigen Antworten:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Alle diese Modelle haben eine gute Leistung gezeigt.

Ich würde etwas mehr Aufmerksamkeit auf die Mistral-Modellgruppe richten. Die Sprachqualität ist etwas besser als der Durchschnitt.

Ein weiterer Punkt – der kleine 3,2b-Modell llama3.2:3b-instruct-q8_0 zeigte ein sehr gutes Ergebnis für seine Größe und ist von allen am schnellsten.

Detaillierte Testergebnisse

Modellname, Parameter, Quantisierung	Größe	Test 1	Test 2	Durchschnitt
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Für weitere Benchmarks, Modellauswahl und Leistungsfeinabstimmung, prüfen Sie unseren LLM Performance: Benchmarks, Bottlenecks & Optimization Hub.

Wie wir testen

Testergebnis

Detaillierte Testergebnisse

Nützliche Links