Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testa upptäckt av logiska fall

Sidinnehåll

Nyligen har vi sett flera nya LLM:er släppas. Spännande tider. Låt oss testa och se hur de presterar när de upptäcker logiska fall.

För mer information om LLM-prestanda – genomflöde mot latens, VRAM-gränser och benchmarkar över olika körningar och hårdvara – se LLM-prestanda: Benchmarkar, Bottlenecks & Optimering.

Presenterar mistral nemo

Vad och hur vi gör

I tidigare test har vi redan testat hur LLM upptäcker logiska fall – llama3 mot phi3 mot andra. De gör det ganska bra, vi älskade resultatet från llama3-8b-Q8 och phi3-medium-4k-instruct-q6_K.

I detta test gör vi samma sak med Gemma2, Qwen2 och Mistral Nemo.

Vi testar de bästa modellerna möjliga, men de måste uppfylla våra begränsningar - de måste passa in i vår konsumtionsnivå GPU, som har 16 GB VRAM. Med detta kriterium i åtanke valde vi följande kvantiseringar:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

och denna qwen2 version:

  • qwen2:72b-instruct-q2_K

Den har storleken 29GB, men låt oss testa den ändå.

Vänligen märk att här försöker vi inte återgå till ‘standard’ kvantisering q4. om q8 passar in i vår GPU:s 16GB VRAM – vi försöker det, försöker bästa möjliga i våra omständigheter.

DT;DR: Resultatet

Föregående modeller vi testade i Logiskt fallupptäckt med LLM:er. Vänligen se i den här inlägget vad vi testade och nu.

Här är uppdaterad tabell där våra nya modeller är i fet.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

Kortform i logiska fallnamn: A 2 CS=Appeal to common sense

Kortform i modellnamn:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Oversimplification=False dichotomy

Slutsats

Vi förväntar oss att LLM:er hittar i exempeltexten Strawman-fallet, Ad Hominem, Appeal to authority och Oversimplification.

De flesta nya modellerna kan se i vår exempeltext Appeal to Authority, och vissa ser Ad Hominem, vissa Oversimplification. God resultat visade qwen2:7b-instruct-q8_0 och gemma2:9b-instruct-q8_0.

Men ändå, vinnare förblir samma.

“Redaktörens val” modell är phi3:14b-medium-4k-instruct-q6_K. Den lätt passar in i 16GB RAM, och ganska smart. Andra platsen är för phi3:3.8b-mini-4k-instruct-q8_0. Gruppen av llama3-modeller är bra också.

Mistral Nemo

Låt oss först granska Mistral Nemo-resultaten, även om de inte är bästa, eftersom de har en snygg robot på deras bild.

Mistral nemo 12b

Modell: mistral-nemo:12b-instruct-2407-q8_0

Svar:

Satsen du har gett innehåller två huvudsakliga logiska fall:

  1. Appeal to Authority (Argumentum ad Verecundiam): Talarpersonen hänvisar till myndigheten hos en tidigare hemminister utan att ge några specifika argument eller bevis från denna person. De antar helt enkelt att eftersom denna person hade en viss position, bör deras åsikt accepteras som giltig.

    • Fall: “som en tidigare hemminister bör veta.”
  2. Red Herring (Irrelevant Conclusion): Talarpersonen börjar med att presentera ett tydligt argument (“för många människor, för få bostäder”) men avvisar det utan att ge några motargument eller bevis. Istället hänvisar de till myndigheten hos den tidigare ministern.

    • Fall: “Titta, vid första anblicken låter det perfekt rimligt: för många människor, för få bostäder. Men det är aldrig så enkelt…”

Även om satsen inte explicit använder känslomässigt språk, kan de fall som Appeal to Authority och Red Herring ändå ses som former av känslomässiga hänvisningar i en bredare mening, eftersom de försöker övertyga lyssnaren baserat på faktorer andra än rationell argumentation.


Baserat på satsen du har gett, finns det några logiska fall i spel:

  1. Ad Hominem: Detta är en attack riktad mot den som gör argumentet snarare än argumentet självt. I detta fall antyds det att eftersom talarpersonen har erfarenhet som tidigare hemminister, bör de veta att saker inte är enkla. Satsen antyder att deras brist på förståelse (eller kanske missförstånd) beror på deras tidigare roll, snarare än att ta itu med argumentets innehåll.

  2. Appeal to Complexity: Detta fall inträffar när någon använder komplexitet som en ursäkt för att inte tänka djupt på ett ämne eller för att avvisa bevis eller resonemang som motsäger sin egen position. I detta sammanhang kan “det är aldrig så enkelt” ses som ett sätt att avvisa det ursprungliga argumentet utan att faktiskt ta itu med dess förtjänster.

Även om det inte finns någon uppenbar känslomässig hänvisning i satsen själv, kan användningen av fall som Ad Hominem och Appeal to Complexity ibland subtilt hänvisa till känslor som avsky eller frustration med för enkla argument. Emellertid är dessa inte direkta känslomässiga hänvisningar i samma mening som en sats som “Du bör hålla med eftersom du kommer att känna dig dålig om du inte gör det” skulle vara.

Så, även om det finns logiska fall i denna sats, är de inte explicita känslomässiga hänvisningar.

Gemma 2 - 9b

Gemma 2 logo

Modell: gemma2:9b-instruct-q8_0

Svar:

Satsen “Titta, vid första anblicken låter det perfekt rimligt: för många människor, för få bostäder. Men det är aldrig så enkelt, som en tidigare hemminister bör veta” innehåller några logiska fall:

  • Appeal to Authority: Satsen bygger på den uppfattade myndigheten hos en “tidigare hemminister” för att avvisa det ursprungliga argumentet. Talarpersonen antar att eftersom personen hade en position av makt, har deras åsikt automatiskt större vikt. Detta fall ignorerar möjligheten att ministern kan vara fel eller att deras expertis inte gäller för detta specifika fall.

  • Pooh-Pooh: Satsen “det är aldrig så enkelt” avvisar det ursprungliga argumentet utan att ge några verkliga motargument eller bevis. Det är en avvisande sats som syftar till att stänga samtalet snarare än engagera sig med de idéer som presenteras.

Vänligen låt mig veta om du vill undersöka andra exempel på logiska fall!


Satsen “Titta, vid första anblicken låter det perfekt rimligt: för många människor, för få bostäder. Men det är aldrig så enkelt, som en tidigare hemminister bör veta” innehåller några logiska fall:

  • Appeal to Authority: Satsen antyder implicit att eftersom talarpersonen nämner en “tidigare hemminister”, har deras åsikt större vikt. Detta antar att vara en tidigare minister automatiskt ger expertis på detta specifika ämne.

  • Pooh-Pooh: Satsen “det är aldrig så enkelt” kan ses som en form av pooh-poohing av det ursprungliga argumentet. Det avvisar det enkla resonemanget utan att ge några betydande motargument eller utforska komplexiteterna.

Vänligen låt mig veta om du vill analysera andra fraser eller argument för fall!

Gemma 2 - 27b

Modell: gemma2:27b-instruct-q3_K_L

Svar:

Satsen “Men det är aldrig så enkelt, som en tidigare hemminister bör veta” använder Appeal to Authority-fall.

Här är anledningen:

  • Det antar expertis: Satsen antyder att eftersom personen är en tidigare hemminister, har de automatiskt särskild kunskap om komplexa sociala frågor som bostadssvårigheter.
  • Expertis är inte alltid relevant: Även om en tidigare minister kan ha viss insikt i bostadsfrågor, är deras erfarenhet inte nödvändigtvis en expert på alla faktorer som bidrar till en bostadssvårighet.

Satsen försöker avvisa ett potentiellt giltigt argument (“för många människor, för få bostäder”) enbart därför att det kommer från någon som uppfattas som bristande på expertis i området.

Vänligen låt mig veta om du har andra fraser du vill analyseras!


Satsen innehåller några element som liknar logiska fall, även om det inte är ett tydligt fall:

  • Appeal to Authority (Svag): “som en tidigare hemminister bör veta.” Detta försöker ge vikt till argumentet genom att hänvisa till talarpersonens tidigare myndighet. Men det är svagt eftersom det inte ger några specifika expertis eller resonemang från ministern som stödjer deras ställningstagande.

  • Ad Hominem (Potentiell): Beroende på kontext och ton kan satsen ses som en ad hominem-attack om den syftar till att diskreditera det motargument som görs enbart utifrån vem som gör det snarare än att ta itu med argumentets innehåll. Till exempel, om satsen antyder att personen inte kan förstå bostadsfrågor för att de var en minister, skulle det vara en ad hominem.

Viktigt att notera: Utan ytterligare kontext om vad personen faktiskt argumenterade och den övergripande tonen, är det svårt att definitivt klassificera dessa som starka exempel på fall.

Vänligen låt mig veta om du har andra fraser du vill att jag ska analysera!

Qwen 2 - 7b

Qwen 2 logo

Modell: qwen2:7b-instruct-q8_0

Svar:

Satsen du har gett innehåller flera logiska fall:

  1. Appeal to Emotions (Argumentum ad Passiones): Uttrycket “Titta, vid första anblicken låter det perfekt rimligt” försöker väcka en känsla av rimlighet och enkelhet i lyssnarens huvud utan att ge något betydande bevis eller argumentation.
  2. Red Herring Fallacy: Genom att nämna att “en tidigare hemminister bör veta”, introducerar talarpersonen ett irrelevans (kunskapen hos en specifik person) för att distrahera från det huvudsakliga ämnet, vilket kan misle ledare till att tro att personens expertis är relevant när den inte kan vara det.
  3. Appeal to Authority Fallacy: Även om det inte uttryckligen nämns i denna sats, om någon skulle påstå att “en tidigare hemminister” vet något därför att de är en tidigare minister, skulle de begå en appeal to authority-fall, vilket antar att deras position ger dem expertis på ämnet utan att ge bevis för deras specifika kunskap eller argument.

Dessa logiska fall kan underminera styrkan i ett argument genom att hänvisa till känslor snarare än logik och relevans.


Satsen du har gett:

“Titta, vid första anblicken låter det perfekt rimligt: för många människor, för få bostäder. Men det är aldrig så enkelt, som en tidigare hemminister bör veta.”

innehåller inte några av de känslomässiga hänvisningarna (Appealum ad passiones) som nämndes i din lista. Dock kan det finnas några potentiella logiska fall:

  • Ad Hominem om detta citat används som en attack mot en specifik person (’tidigare hemminister’) snarare än att ta itu med deras argument.
  • Red Herring Fallacy: Det kan finnas ett försök att distrahera från det ursprungliga ämnet eller argumenten genom att nämna irrelevanta ämnen, även om det inte finns någon uppenbar red herring i den sats du har gett.

Det finns också andra fall som inte nämndes under ‘Appeal To Emotions’ som:

  • False Dilemma: Att presentera ett komplext ämne i enkla binära termer där det inte kan diskuteras tillräckligt. Satsen du har gett innehåller inte detta slags fall.
  • Appeal to Authority: Att använda någons åsikt eller identitet istället för giltigt bevis för att stödja ett argument. Inte tillämpligt i din citat eftersom ingen myndighet hänvisas till.

Vänligen förtydliga om det fanns en annan specifik sats du ville analysera under känslomässiga hänvisningar, och vi skulle vara glada att hjälpa till med det.

Qwen 2 - 72b

Jag vet, det är överviktigt som inte kommer från vår kategori, men bara nyfiken…

Modell: qwen2:72b-instruct-q2_K

Svar:

Satsen som har getts innehåller inte direkt en känslomässig hänvisning som definieras i listan över logiska fall. Dock antyder den en potentiell logiskt fall som kallas “Appeal to authority” eller “Argument from authority.” Detta är eftersom talarpersonen föreslår att den tidigare hemministern bör veta bättre, vilket antyder att deras myndighet på ämnet gör deras åsikt mer giltig.

Satsen använder inte direkt en känslomässig hänvisning men använder istället myndigheten hos den tidigare hemministerns antagna kunskap som sätt att underminera enkla förklaringar som presenteras. Detta kan ses i satsens struktur: “Men det är aldrig så enkelt, som en tidigare hemminister bör veta.”

Sammanfattning:

  • Logiskt fall som förekommer: Appeal to authority
  • Definition: En appeal to authority inträffar när en påstående anses vara sann baserat på kredibiliteten eller expertisen hos den som gör påståendet snarare än styrkan hos beviset.
  • Exempel i satsen: “som en tidigare hemminister bör veta” antyder att åsikten hos någon med sådan erfarenhet har större vikt och kan användas för att avvisa enklare förklaringar.

Satsen du har gett innehåller inte nödvändigtvis en specifik känslomässig reaktion; snarare hänvisar den till lyssnarens kunskap och erfarenhet genom att föreslå att enkla förklaringar ofta inte berättar det fullständiga historien. Dock, om vi skulle analysera den för potentiella känslomässiga hänvisningar:

Appeal to Authority: Den hänvisar indirekt till “en tidigare hemminister” som bör veta bättre än att acceptera enkla förklaringar. Detta kan ses som ett indirekt försök att ge myndighet och trovärdighet till komplexiteten i frågan, vilket kan subtilt hänvisa till vårt önskade att få expertguidans.

Satsen använder inte direkt känslomässiga hänvisningar som Förfärande, Skuld, Skratt, Vrede, Missnöje, Förskräckelse, Flattery, Målsöken, Patriotism eller Pooh-Pooh, men den hänvisar indirekt till myndighet (som hänvisar till vår respekt och tillbakahållighet) för att betona komplexiteten i frågor som inte kan lösas enkelt genom att skylla på “för många människor” för bristen på bostäder. Detta kan också relateras till:

Appeal to Reason: Det uppmanar oss att titta bortom enkla lösningar och överväga att problem kan ha djupare eller mer komplexa orsaker än de verkar på första hand.

Sammanfattningsvis, även om det inte finns en tydlig känslomässig hänvisning i satsen, försöker den använda myndighet och resonemang – aspekter ofta respekterade vid rationell beslutsfattning. Detta betonar trovärdighet, ofta uppskattad när man analyserar logiska fall som kan manipulera känslor utan fasta argument.

En mer detaljerad kontext kan vara nödvändig för specifika känslomässiga hänvisning klassificeringar eftersom inbäddade hänvisningar ofta kommer från hur lyssnare relaterar känslomässigt till frågor utanför satsen själv.

Kom ihåg att fallor ofta innehåller logiska fel men ofta resonera på djupare, känslomässigt påverkade personliga fördomar eller samhällsansvar – så detta sats innehåll värd att packa upp noggrant kring vad lyssnare kan undermedvetet koppla inom bredare dialoger.

För att utforska fler benchmarkar, VRAM och modellval för 16GB GPU:er, och prestandatuning, kontrollera vår LLM-prestanda: Benchmarkar, Bottlenecks & Optimering hub.

Några användbara länkar