Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testning av logiska felslut

Sidinnehåll

Nyligen har vi sett flera nya LLMs som släppts. Spännande tider. Låt oss testa och se hur de presterar när de upptäcker logiska felaktigheter.

Presenting mistral nemo

Vad och hur vi gör

I tidigare test har vi redan testat hur LLM upptäcker logiska felaktigheter - llama3 vs phi3 vs andra. De gör det ganska bra, vi älskade resultatet av llama3-8b-Q8 och phi3-medium-4k-instruct-q6_K.

I detta test gör vi samma sak med Gemma2, Qwen2 och Mistral Nemo.

Vi testar de bästa modeller som är möjliga, men de måste uppfylla våra restriktioner - de måste passa i vår konsumentgradskort med 16 GB VRAM. Med detta kriterium i åtanke valde vi följande kvantiseringar:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

och denna qwen2-version:

  • qwen2:72b-instruct-q2_K

Den har en storlek på 29GB, men låt oss testa den ändå.

Observera att vi här inte faller tillbaka till ‘standard’ kvantisering q4. om q8 passar i vår GPUs 16GB VRAM - då går vi på det, försöker det bästa möjliga i våra omständigheter.

DT;DR: Resultatet

Tidigare modeller vi testade i Logical Fallacy Detection with LLMs. Se i den inlägget vad vi testar och nu.

Här är uppdaterad tabell där våra nya modeller är i fetstil.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

Förkortningar i logiska felaktigheter: A 2 CS=Appeal to common sense

Förkortningar i modellnamn:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Oversimplification=False dichotomy

Slutsats

Vi förväntar oss att LLMs ska hitta Strawman-felaktigheten, Ad Hominem, Appeal to authority och Oversimplification i exempeltexten.

De flesta nya modeller kan se Appeal to Authority i vår exempeltext, och några ser Ad Hominem, några Oversimplification. Bra resultat visade qwen2:7b-instruct-q8_0 och gemma2:9b-instruct-q8_0.

Men fortfarande är vinnarna desamma.

“Editors choice”-modellen är phi3:14b-medium-4k-instruct-q6_K. Den passar lätt in i 16GB RAM, och är ganska smart. Andraplatsen är för phi3:3.8b-mini-4k-instruct-q8_0. Gruppen av llama3-modeller är också bra.

Mistral Nemo

Låt oss först granska Mistral Nemos resultat, även om de inte är de bästa, för de har en snygg robot på sin bild.

Mistral nemo 12b

Modell: mistral-nemo:12b-instruct-2407-q8_0

Svar:

Frasen du tillhandahöll innehåller två huvudsakliga logiska felaktigheter:

  1. Appeal to Authority (Argumentum ad Verecundiam): Talaren hänvisar till auktoriteten hos en tidigare hemvärnsminister utan att ge några specifika argument eller bevis från denna person. De antar helt enkelt att eftersom denna person hade en viss position, bör deras åsikt accepteras som giltig.

    • Felaktighet: “som tidigare hemvärnsminister borde veta.”
  2. Red Herring (Irrelevant Conclusion): Talaren börjar med att presentera ett verkande argument (“för många människor, för få hus”) men avfärdar det sedan utan att ge några motargument eller bevis. Istället hänvisar de till auktoriteten hos den tidigare ministern.

    • Felaktighet: “Titta, vid första anblicken låter det helt rimligt: för många människor, för få hus. Men det är aldrig så enkelt…”

Även om frasen inte explicit använder emotionellt språk, kan appellen till auktoritet och red herring-felaktigheter ändå betraktas som former av appeller till känslor i en bredare mening, eftersom de försöker övertyga lyssnaren baserat på faktorer andra än rationell argumentation.


Baserat på frasen du har tillhandahållit finns det ett par logiska felaktigheter i spel:

  1. Ad Hominem: Detta är ett angrepp riktat mot personen som framför argumentet snarare än argumentet i sig. I detta fall underförstås att eftersom talaren har erfarenhet som tidigare hemvärnsminister, borde de veta att saker inte är enkla. Frasen antyder att deras brist på förståelse (eller kanske missförstånd) beror på deras tidigare roll, snarare än att adressera argumentets substans.

  2. Appeal to Complexity: Denna felaktighet inträffar när någon använder komplexitet som en ursäkt för att inte tänka djupare om en fråga eller för att avfärda bevis eller resonemang som strider mot ens egen position. I detta sammanhang kan “det är aldrig så enkelt” ses som ett sätt att avfärda det initiala argumentet utan att faktiskt adressera dess förtjänster.

Även om det inte finns en öppen appell till känslor i frasen i sig, kan användningen av felaktigheter som Ad Hominem och Appeal to Complexity ibland subtilt appellera till känslor som förakt eller frustration över för enkla argument. Dock är dessa inte direkta appeller till känslor på samma sätt som en påstående som “Du borde vara överens för att du skulle känna dig dålig om du inte gör det” skulle vara.

Så, även om det finns logiska felaktigheter närvarande i denna fras, är de inte explicit emotionella appeller.

Gemma 2 - 9b

Gemma 2 logo

Modell: gemma2:9b-instruct-q8_0

Svar:

Frasen “Look, on first blush, it all sounds perfectly reasonable: too many people, not enough houses. But it is never that simple, as a former home affairs minister should know” innehåller några logiska felaktigheter:

  • Appeal to Authority: Frasen förlitar sig på den uppfattade auktoriteten hos en “tidigare inrikesminister” för att avfärda det inledande argumentet. Talaren antar att eftersom personen hade en maktposition, så har deras åsikt automatiskt mer tyngd. Denna felaktighet ignorerar möjligheten att ministern kan ha fel eller att deras expertis inte tillämpas på denna specifika situation.

  • Pooh-Pooh: Frasen “it is never that simple” avfärdar det inledande argumentet utan att ge några verkliga motargument eller bevis. Det är ett avfärdande uttalande som syftar till att avsluta konversationen istället för att engagera sig i de framförda idéerna.

Låt mig veta om du vill utforska andra exempel på logiska felaktigheter!


Frasen “Look, on first blush, it all sounds perfectly reasonable: too many people, not enough houses. But it is never that simple, as a former home affairs minister should know” innehåller några logiska felaktigheter:

  • Appeal to Authority: Frasen antyder implicit att eftersom talaren nämner en “tidigare inrikesminister”, så har deras åsikt mer tyngd. Detta antar att att vara en tidigare minister automatiskt ger expertis på detta specifika ämne.

  • Pooh-Pooh: Frasen “it is never that simple” kan betraktas som en form av avfärdande av det inledande argumentet. Det avfärdar det enkla resonemanget utan att ge substansiella motargument eller utforska komplexiteten.

Låt mig veta om du vill analysera andra fraser eller argument för felaktigheter!

Gemma 2 - 27b

Modell: gemma2:27b-instruct-q3_K_L

Svar:

Frasen “But it is never that simple, as a former home affairs minister should know” använder sig av appeal to authority-felaktigheten.

Här är varför:

  • Det antar expertis: Uttalandet implicerar att eftersom personen är en tidigare inrikesminister, så har de automatiskt specialkunskap om komplexa samhällsfrågor som bostadsbrist.
  • Expertis är inte alltid relevant: Även om en tidigare minister kan ha viss insikt i bostadspolitik, så gör inte deras erfarenhet dem till experter på alla bidragande faktorer till en bostadsbrist.

Frasen försöker avfärda ett potentiellt giltigt argument (“för många människor, för få bostäder”) enbart därför att det kommer från någon som uppfattas sakna expertis inom området.

Låt mig veta om du har några andra fraser du vill att jag ska analysera!


Frasen innehåller ett par element som liknar logiska felaktigheter, även om det inte är ett rakt av fall:

  • Appeal to Authority (Svag): “as a former home affairs minister should know.” Detta försöker ge tyngd åt argumentet genom att hänvisa till talarens tidigare auktoritet i ämnet. Det är dock svagt eftersom det inte ger någon specifik expertis eller resonemang från ministern för att stödja deras ståndpunkt.

  • Ad Hominem (Potentiell): Beroende på kontext och ton, kan frasen ses som ett ad hominem-angrepp om det är menat att förringa det motsatta argumentet enbart baserat på vem som framför det, istället för att adressera argumentets innehåll. Till exempel, om uttalandet implicerar att personen är oförmögen att förstå bostadspolitik eftersom de var minister, skulle det vara ett ad hominem.

Viktig anmärkning: Utan ytterligare kontext om vad personen faktiskt argumenterade för och den övergripande tonen, är det svårt att definitivt klassificera dessa som starka exempel på felaktigheter.

Låt mig veta om du har några andra fraser du vill att jag ska analysera!

Qwen 2 - 7b

Qwen 2 logo

Modell: qwen2:7b-instruct-q8_0

Svar:

Frasen du tillhandahöll innehåller flera logiska felaktigheter:

  1. Appeal to Emotions (Argumentum ad Passiones): Uttalandet “Look, on first blush, it all sounds perfectly reasonable” försöker väcka en känsla av rimlighet och enkelhet i lyssnarens sinne utan att ge substansiell bevisning eller argumentation.
  2. Red Herring Fallacy: Genom att nämna att “en tidigare inrikesminister borde veta” introducerar talaren en irrelevant punkt (kunskapen hos en specifik individ) för att avleda uppmärksamheten från huvudfrågan, vilket potentiellt kan vilseleda publiken att tro att personens expertis är relevant när den kanske inte är det.
  3. Appeal to Authority Fallacy: Även om det inte uttryckligen står i denna fras, om någon skulle påstå att “en tidigare inrikesminister” vet något därför att de är en tidigare minister, skulle de begå en appeal to authority-felaktighet, antagande att deras position ger dem expertis i ämnet utan att ge bevis för deras specifika kunskap eller argument.

Dessa logiska felaktigheter kan undergräva styrkan i ett argument genom att appellera till känslor istället för logik och relevans.


Frasen du tillhandahöll:

“Look, on first blush, it all sounds perfectly reasonable: too many people, not enough houses. But it is never that simple, as a former home affairs minister should know.”

innehåller inga av de Appeal to Emotions (Appealum ad passiones) felaktigheter som nämns i din lista. Dock kan några potentiella logiska felaktigheter vara:

  • Ad Hominem om detta citat används som ett angrepp mot en specifik individ (’tidigare inrikesminister’) istället för att adressera deras argument.
  • Red Herring Fallacy: Det kan finnas ett försök att avleda uppmärksamheten från det ursprungliga ämnet eller argumenten genom att nämna irrelevanta ämnen, även om ingen uppenbar red herring verkar närvarande i den mening du tillhandahöll.

Det finns också andra felaktigheter som inte nämns under ‘Appeal To Emotions’ såsom:

  • False Dilemma: Att presentera ett komplext ämne i enkla binära termer där det inte kan diskuteras tillräckligt. Den tillhandahållna meningen implicerar inte denna typ av felaktighet.
  • Appeal to Authority: Att använda åsikten eller identiteten hos någon känd istället för giltig bevisning för att stödja ett argument. Inte tillämpligt i ditt citat eftersom ingen auktoritet invokeras.

Var vänlig att klargöra om det fanns en annan specifik fras du menade för analys under appeal to emotions, och vi skulle gärna hjälpa till med det.

Qwen 2 - 72b

Jag vet, att övervikt inte är från vår kategori, men bara nyfiken…

Modell: qwen2:72b-instruct-q2_K

Svar:

Frasen som tillhandahölls innehåller inte direkt en appeal to emotions som definieras i listan över logiska felaktigheter. Den implicerar dock en potentiell logisk felaktighet känd som “Appeal to authority” eller “Argument from authority.” Detta eftersom talaren föreslår att den tidigare inrikesministern borde veta bättre, vilket implicerar att deras auktoritet i ämnet gör deras åsikt mer giltig.

Frasen använder inte direkt en känslomässig appeal utan använder istället auktoriteten hos den tidigare inrikesministerns förmodade kunskap som ett sätt att underminera enkelheten i det framförda argumentet. Detta kan ses i strukturen i meningen: “But it is never that simple, as a former home affairs minister should know.”

Sammanfattningsvis:

  • Logisk felaktighet närvarande: Appeal to authority
  • Definition: En appeal to authority inträffar när ett påstående anses vara sant baserat på trovärdigheten eller expertisen hos personen som gör påståendet istället för styrkan i bevisningen.
  • Exempel i frasen: “as a former home affairs minister should know” implicerar att åsikten hos någon med sådan erfarenhet väger tyngre och kan användas för att avfärda enklare förklaringar.

Frasen du tillhandahöll väcker inte direkt en specifik känslomässig respons; den appellerar istället till lyssnarens kunskap och erfarenhet genom att föreslå att enkla förklaringar ofta inte berättar hela sanningen. Om vi skulle analysera den för potentiell känslomässig appeal:

Appeal to Authority: Den hänvisar indirekt till “en tidigare inrikesminister” som borde veta bättre än att acceptera simplistiska förklaringar. Detta kan ses som ett indirekt försök att lägga till auktoritet och trovärdighet till komplexiteten i frågan, vilket kan subtilt appellera till vårt behov av expertvägledning.

Frasen använder inte direkt känslomässiga appeller såsom Rädsla, Skuld, Förlöjligande, Ilska, Hat, Avsky, Smickrande, Medlidande, Patriotism eller Pooh-Pooh, men den hänvisar indirekt till auktoritet (appellerar till vårt respekt och underkastelse) för att understryka komplexiteten i frågor som inte enkelt löses genom att skylla på “för många människor” för brist på bostäder. Detta kan också relateras till:

Appeal to Reason: Den uppmanar oss att se bortom enkla lösningar och överväga att problem kan ha djupare eller mer komplexa orsaker än de verkar vid första anblicken.

Sammanfattningsvis, även om det kanske inte finns en stark känslomässig appeal uppenbar i frasen, så försöker den att utnyttja auktoritet och resonemang - aspekter som ofta uppskattas inom rationellt beslutsfattande. Detta understryker en möjlig strategisk spel på känslor av förtroende för auktoritetsfigurer för att instilla tvivel i simplistiska åsikter och uppmuntrar mer eftertänksamma överväganden hos lyssnare som uppskattar komplexitet i samhällsfrågor. En nyanserad version skulle potentiellt kunna väcka element relaterade till:

  • Rädsla: Subtilt väcka oro för överensimplifiering, vilket i sin tur kan väcka ångest kring oadresserade komplexiteter.
  • Avsky: Implicerad avsky för överensimplifierade narrativ kan triggas om det framförs i sammanhang som kritiserar ytliga eller okunniga politikdiskussioner.

Dessa är dock indirekta och kan bero mycket på kontextuella nyanser i omgivande diskussioner. Utan ytterligare känslomässigt innehåll eller specifika appeller som är karakteristiska för definierade felaktigheter (t.ex. rädsloframkallande, öppet utnyttjande av skuld), är denna fras främst inriktad på att framkalla resonemang genom auktoritet snarare än att manipulera känslor. Denna positionering understryker trovärdighet, ofta uppskattad vid analys av logiska felaktigheter som kan vara manipulerade känslor utan solida argument.

Sammanfattningsvis:

  • Uttalandet antyder auktoritet (“en tidigare inrikesminister”), vilket potentiellt kan väcka respekt eller förtroende (som det antyder insiderkunskap).
  • Det kan inducera subtil ångest inför simplism som ett hot (även om rädsloframkallande taktiker inte öppet används här).
  • En mer detaljerad kontext kan vara nödvändig för specifika känslomässiga appellklassificeringar eftersom inre appeller tenderar att härstamma från hur lyssnare känslomässigt relaterar till frågor bortom uttalandet självt.

Kom ihåg att felaktigheter vanligtvis involverar logiska fel men ofta resonerar på djupare, känslomässigt påverkade personliga fördomar eller samhällsängest - vilket gör att denna fras implikationer är värda att noggrant packa upp kring vad lyssnare kan omedvetet koppla i bredare dialoger.

Användbara länkar