Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testowanie wykrywania błędnego rozumowania

Page content

Niedawno widzieliśmy kilka nowych LLM, które zostały wydane. Wspaniałe czasy. Sprawdźmy i zobaczmy, jak działają, gdy wykrywają błędy logiczne.

Prezentacja mistral nemo

Co i jak robimy

W poprzednim teście już testowaliśmy, jak LLM wykrywają błędy logiczne - llama3 vs phi3 vs inne. Robią to dość dobrze, uwielbiliśmy wynik llama3-8b-Q8 i phi3-medium-4k-instruct-q6_K.

W tym teście robimy to samo, używając Gemma2, Qwen2 i Mistral Nemo.

Testujemy najlepsze modele, ale muszą one spełniać nasze ograniczenia - muszą pasować do naszej karty graficznej konsumenckiej, która ma 16 GB pamięci VRAM. Z tą kryteriami na myśli wybraliśmy następujące kwantyzacje:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

i tę wersję qwen2:

  • qwen2:72b-instruct-q2_K

Ma ona rozmiar 29 GB, ale testujmy ją mimo to.

Proszę zauważyć, że tutaj nie cofamy się do użycia domyślnej kwantyzacji q4. Jeśli q8 pasuje do naszej karty graficznej z 16 GB VRAM - idziemy w tę stronę, staramy się najlepiej w naszych okolicznościach.

DT;DR: Wynik

Poprzednie modele, które testowaliśmy w Wykrywanie błędów logicznych za pomocą LLM. Proszę zobaczyć w tym poście, co testowaliśmy i teraz.

Oto zaktualizowana tabela, w której nasze nowe modele są w pogrubieniu.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5,8GB V V V V V V
l3:8b-i-q8_0 9,1GB V V V V V V
l3:8b-i-fp16 9,1GB V V V V V
p3:3.8b 4,3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5,8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8,9GB V V V V V V
p3:14b 9,3GB V V V V
p3:14b-m-4k-i-q6_K 12,5GB V V V V V V
p3:14b-m-4k-i-q8_0 15,3GB V V V V V
mi:7b-i-v0.3-q4_0 4,3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8,6GB V V V V V V
mi:7b-i-v0.3-fp16 14,7GB V V V
ge:7b-i-v1.1-q4_0 7,2GB V V V V
ge:7b-i-v1.1-q6_K 9,1GB V V V V V
ge:7b-i-v1.1-fp16 15,5GB V V V V V
qw:14b-chat-v1.5-q8_0 15,2GB V V V V V
qw:7b-chat-v1.5-fp16 15,5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15,1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15,4GB V V V V V V V V
ge2:9b-i-q8_0 9,0GB V V V V
ge2:27b-i-q3_K_L 14,0GB V V V
mi-nemo:12b-i-.q8_0 13,0GB V V V V
qw2:7b-i-q8_0 8,1GB V V V V V V
qw2:72b-i-q2_K 29,0GB V V V

Skróty w nazwach błędów logicznych: A 2 CS=Appeal to common sense

Skróty w nazwach modeli:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Zbyt uproszczone=False dichotomy

Wnioski

Oczekujemy, że LLM znajdą w tekście próby błąd logiczny Strawman, Ad Hominem, Appeal to authority i Oversimplification.

Większość nowych modeli potrafi wykryć w naszym tekście Appeal to Authority, a niektóre wykrywają Ad Hominem, niektóre Oversimplification. Dobre wyniki pokazały qwen2:7b-instruct-q8_0 i gemma2:9b-instruct-q8_0.

Ale i tak zwycięzcy pozostają tymi samymi.

Model wybrany przez redakcję to phi3:14b-medium-4k-instruct-q6_K. On łatwo mieści się w 16 GB RAM, i dość mądry. Na drugim miejscu jest phi3:3.8b-mini-4k-instruct-q8_0. Grupa modeli llama3 również jest dobra.

Mistral Nemo

Zacznijmy od przeglądania wyników Mistral Nemo, nawet jeśli nie są najlepsze, ponieważ mają ładnego robota na swoim obrazie.

Mistral nemo 12b

Model: mistral-nemo:12b-instruct-2407-q8_0

Odpowiedź:

Podany przez Ciebie fragment zawiera dwa główne błędy logiczne:

  1. Appeal to Authority (Argumentum ad Verecundiam): Mówca odwołuje się do autorytetu byłego ministra spraw wewnętrznych bez podawania żadnych konkretnych argumentów lub dowodów od tej osoby. Prostym założeniem jest, że dlatego, że ta osoba zajmowała pewną pozycję, jej opinia powinna być akceptowana jako ważna.

    • Błąd: “jakbył minister spraw wewnętrznych powinien wiedzieć.”
  2. Red Herring (Irrelevant Conclusion): Mówca zaczyna od przedstawienia wydaje się rozsądnego argumentu (“zbyt wielu ludzi, zbyt mało domów”), ale potem go odrzuca bez podawania żadnych argumentów ani dowodów. Zamiast tego odwołuje się do autorytetu ministra.

    • Błąd: “Spójrz, na pierwszy rzut oka wszystko brzmi doskonale: zbyt wielu ludzi, zbyt mało domów. Ale nigdy nie jest to tak proste…”

Choć zdanie nie zawiera wyraźnie języka emocjonalnego, błędy odwołania do autorytetu i red herring mogą być w szerszym sensie uznane za formy odwoływania się do emocji, ponieważ próbują przekonać słuchacza na podstawie czynników innych niż racjonalne argumenty.


Na podstawie podanego przez Ciebie zdania, występują kilka błędów logicznych:

  1. Ad Hominem: Jest to atak skierowany do osoby formułującej argument, a nie do samego argumentu. W tym przypadku sugeruje się, że ponieważ mówca miał doświadczenie jako były minister spraw wewnętrznych, powinien wiedzieć, że rzeczy nie są proste. Zdanie sugeruje, że jego brak zrozumienia (lub może niezrozumienie) wynika z jego wcześniejszej roli, a nie z analizy samego argumentu.

  2. Appeal to Complexity: Ten błąd występuje, gdy ktoś używa skomplikowania jako wymówki, by nie myśleć głęboko nad pewnym problemem lub by odrzucić dowody lub rozumowanie, które są sprzeczne z własną pozycją. W tym kontekście “to nigdy nie jest tak proste” może być widziane jako sposób na odrzucenie początkowego argumentu bez rzeczywistego analizowania jego zalet.

Choć w samym zdaniu nie ma wyraźnego odwołania do emocji, użycie błędów takich jak Ad Hominem i Appeal to Complexity może czasem subtelnie odwoływać się do emocji, takich jak pogardza lub frustracja z nadmiernie uproszczonych argumentów. Jednak nie są to bezpośrednie odwołania do emocji w tym samym sensie, jak zdanie typu “Powinieneś się zgodzić, ponieważ poczujesz się źle, jeśli się nie zgodzisz”.

Więc, choć w tym zdaniu rzeczywiście występują błędy logiczne, to nie są one wyraźne odwołania do emocji.

Gemma 2 - 9b

Gemma 2 logo

Model: gemma2:9b-instruct-q8_0

Odpowiedź:

Zdanie “Spójrz, na pierwszy rzut oka wszystko brzmi doskonale: zbyt wielu ludzi, zbyt mało domów. Ale nigdy nie jest to tak proste, jakbył minister spraw wewnętrznych powinien wiedzieć” zawiera kilka błędów logicznych:

  • Appeal to Authority: Zdanie opiera się na postrzeganej autorytecie “byłego ministra spraw wewnętrznych”, aby odrzucić początkowy argument. Mówca zakłada, że dlatego, że osoba zajmowała stanowisko władzy, jej opinia automatycznie ma większy wpływ. Ten błąd ignoruje możliwość, że minister mógłby być błędny lub że jego ekspertyza nie dotyczy tej konkretnej sytuacji.

  • Pooh-Pooh: Zdanie “to nigdy nie jest tak proste” odrzuca początkowy argument bez podawania żadnych rzeczywistych argumentów ani dowodów. Jest to odrzucające stwierdzenie, które ma na celu zamknięcie rozmowy zamiast analizowania przedstawionych pomysłów.

Daj znać, jeśli chcesz, abyśmy omówili inne przykłady błędów logicznych!


Zdanie “Spójrz, na pierwszy rzut oka wszystko brzmi doskonale: zbyt wielu ludzi, zbyt mało domów. Ale nigdy nie jest to tak proste, jakbył minister spraw wewnętrznych powinien wiedzieć” zawiera kilka błędów logicznych:

  • Appeal to Authority: Zdanie niejawnie sugeruje, że dlatego, że mówca wspomina “byłego ministra spraw wewnętrznych”, jego opinia ma większy wpływ. Zakłada to, że bycie ministrem automatycznie nadaje ekspertyzę na ten konkretny temat.

  • Pooh-Pooh: Zdanie “to nigdy nie jest tak proste” może być uznane za formę pooh-poohowania początkowego argumentu. Odrzuca prostą logikę bez podawania istotnych argumentów ani analizy skomplikowania.

Daj znać, jeśli chcesz, abyśmy przeanalizowali inne zdania lub argumenty pod kątem błędów!

Gemma 2 - 27b

Model: gemma2:27b-instruct-q3_K_L

Odpowiedź:

Zdanie “Ale nigdy nie jest to tak proste, jakbył minister spraw wewnętrznych powinien wiedzieć” stosuje błąd logiczny appeal to authority.

Oto dlaczego:

  • Założenie ekspertyzy: Stwierdzenie sugeruje, że ponieważ osoba jest byłym ministrem spraw wewnętrznych, automatycznie ma specjalną wiedzę na temat skomplikowanych problemów społecznych, takich jak brak domów.
  • Ekspertyza nie zawsze jest odpowiednia: Choć były minister może mieć pewne wgląd w politykę mieszkaniową, jego doświadczenie nie zawsze czyni go ekspertem na wszystkie czynniki wpływające na brak domów.

Zdanie próbuje odrzucić potencjalnie ważny argument (“zbyt wielu ludzi, zbyt mało domów”) po prostu dlatego, że pochodzi od osoby, która jest uznawana za nieposiadającą odpowiedniej ekspertyzy w tej dziedzinie.

Daj znać, jeśli masz inne zdania, które chciałbyś przeanalizować!


Zdanie zawiera kilka elementów, które przypominają błędy logiczne, choć nie jest to jasny przypadek:

  • Appeal to Authority (Słabe): “jakbył minister spraw wewnętrznych powinien wiedzieć.” To próbuje nadać wagi argumentowi, odwołując się do poprzedniej autorytetu mówcy. Jednak jest to słabe, ponieważ nie podaje konkretnych kompetencji ani rozumowania ministra, które popierają jego stanowisko.

  • Ad Hominem (Potencjalne): W zależności od kontekstu i tonu, zdanie mogłoby być widziane jako ad hominem, jeśli miałoby na celu osłabienie argumentu przeciwnika tylko dlatego, że jest on złożony przez daną osobę, a nie analizując rzeczywistego treści argumentu. Na przykład, jeśli zdanie sugeruje, że osoba nie potrafi zrozumieć polityki mieszkaniowej dlatego, że była ministrem, to byłoby to ad hominem.

Ważne Uwaga: Bez dodatkowego kontekstu o tym, co dokładnie osoba argumentowała i ogólnym tonie, trudno jednoznacznie sklasyfikować te przykłady jako silne przypadki błędów.

Daj znać, jeśli masz inne zdania, które chciałbyś przeanalizować!

Qwen 2 - 7b

Qwen 2 logo

Model: qwen2:7b-instruct-q8_0

Odpowiedź:

Podane przez Ciebie zdanie zawiera kilka błędów logicznych:

  1. Appeal to Emotions (Argumentum ad Passiones): Stwierdzenie “Spójrz, na pierwszy rzut oka wszystko brzmi doskonale” próbuje wywołać poczucie rozsądku i prostoty w umyśle słuchacza bez podawania istotnych dowodów ani argumentacji.
  2. Red Herring Fallacy: Przez wspomnienie, że “był minister spraw wewnętrznych powinien wiedzieć”, mówca wprowadza nieistotny punkt (wiedza konkretnego indywidualnego) w celu odwrócenia uwagi od głównego problemu, potencjalnie myląc słuchaczy, że wiedza tej osoby jest istotna, kiedy może nie być.
  3. Appeal to Authority Fallacy: Choć nie jest to wyraźnie stwierdzone w tym zdaniu, jeśli ktoś by stwierdził, że “był minister spraw wewnętrznych” wie coś dlatego, że był ministrem, to byłby to błąd odwoływania się do autorytetu, zakładając, że jego stanowisko daje mu ekspertyzę na temat, bez podawania dowodów jego konkretnej wiedzy lub argumentu.

Te błędy logiczne mogą osłabiać siłę argumentu, odwołując się do emocji zamiast logiki i odpowiedniego kontekstu.


Podane przez Ciebie zdanie:

“Spójrz, na pierwszy rzut oka wszystko brzmi doskonale: zbyt wielu ludzi, zbyt mało domów. Ale nigdy nie jest to tak proste, jakbył minister spraw wewnętrznych powinien wiedzieć.”

nie zawiera żadnych z błędów odwoływania się do emocji (Appealum ad passiones), które wymieniłeś w swojej liście. Jednak potencjalne błędy logiczne mogą być:

  • Ad Hominem, jeśli ten cytat byłby użyty jako atak na konkretną osobę (“był minister spraw wewnętrznych”) zamiast analizowania ich argumentu.
  • Red Herring Fallacy: Może być próba odwrócenia uwagi od oryginalnego problemu lub argumentów, wspominając nieistotne tematy, choć w zdaniu, które podałeś, nie ma wyraźnego red herring.

Są też inne błędy, które nie są wymienione pod “Appeal To Emotions”, takie jak:

  • False Dilemma: Przedstawianie skomplikowanego problemu w prostych, binarnych terminach, gdzie nie można go odpowiednio omówić. Podane zdanie nie sugeruje tego rodzaju błędu.
  • Appeal to Authority: Używanie opinii lub tożsamości kogoś znanej zamiast ważnych dowodów, aby poprzeć argument. Nie dotyczy to Twojego cytatu, ponieważ nie jest odwoływany do żadnej autorytetu.

Proszę wyjaśnić, jeśli miałeś na myśli inny konkretny fragment do analizy pod kątem odwoływania się do emocji, i chętnie pomogę z tym.

Qwen 2 - 72b

Znam, to, że przekroczenie wagi nie należy do naszej kategorii, ale po prostu ciekawski…

Model: qwen2:72b-instruct-q2_K

Odpowiedź:

Podany fragment nie zawiera bezpośrednio apelowania do emocji, jak to jest zdefiniowane w liście błędów logicznych. Jednak sugeruje potencjalny błąd logiczny znany jako “Apel do autorytetu” lub “Argument z autorytetu”. Jest to dlatego, że mówiący sugeruje, że dawni minister spraw wewnętrznych powinni wiedzieć lepiej, sugerując, że ich autorytet na temat sprawia, że ich opinia jest bardziej ważna.

Fragment nie zawiera bezpośrednio apelu emocjonalnego, lecz wykorzystuje autorytet dawnych minister spraw wewnętrznych, zakładając ich wiedzę, jako sposób na osłabienie prostoty argumentu. Można to zobaczyć w strukturze zdania: „Ale nigdy nie jest to tak proste, jak dawny minister spraw wewnętrznych powinien wiedzieć”.

Podsumowując:

  • Błąd logiczny obecny: Apel do autorytetu
  • Definicja: Apel do autorytetu występuje, gdy stwierdzenie uznawane za prawdziwe na podstawie wiarygodności lub ekspertyzy osoby, która go formułuje, zamiast na sile dowodów.
  • Przykład w zdaniu: „jak dawny minister spraw wewnętrznych powinien wiedzieć” sugeruje, że opinia osoby o takiej doświadczeniu ma większy wpływ i może być wykorzystana do odrzucenia prostszych wyjaśnień.

Podany fragment nie koniecznie wywołuje konkretną reakcję emocjonalną, lecz odwołuje się do wiedzy i doświadczenia słuchacza, sugerując, że proste wyjaśnienia często nie opisują całej sytuacji. Jednak jeśli analizowalibyśmy go pod kątem potencjalnego apelu emocjonalnego:

Apel do autorytetu: Indirektnie odnosi się do „dawnego ministra spraw wewnętrznych”, który powinien wiedzieć lepiej niż akceptować uproszczone wyjaśnienia. Może to być widziane jako nieco indirektny sposób na nadanie autorytetu i wiarygodności złożoności problemu, co może subtelnie odwoływać się do naszego pragnienia kierowania się wskazówkami ekspertów.

Zdanie nie wykorzystuje bezpośrednio emocjonalnych apelów, takich jak Strach, Winą, Poniżenie, Złość, Złośliwość, Odrzucenie, Flata, Szacunek, Patriotyzm lub Pooh-Pooh, ale indirektnie odnosi się do autorytetu (odwołując się do naszego szacunku i poszanowania), aby podkreślić złożoność problemów, które nie są rozwiązywane po prostu przez winę „zbyt wielu ludzi” za brak domów. Może to również odnosić się do:

Apel do rozumu: Przypomina nam, aby patrzeć poza prostymi rozwiązaniami i rozważyć, że problemy mogą mieć głębsze lub bardziej złożone przyczyny niż wydają się na pierwszy rzut oka.

Wszystkim razem, choć nie ma wyraźnego emocjonalnego apelu w zdaniu, próbuje wykorzystać autorytet i rozum – aspekty często doceniane w racjonalnym podejmowaniu decyzji. To podkreśla potencjalną strategiczną grę na emocjach zaufania do postaci autorytetowych, aby wywołać wątpliwość wobec uproszczonych poglądów i zachęcić do bardziej świadomego rozważania przez słuchaczy, którzy doceniają złożoność problemów społecznych. Wrażliwsza wersja może potencjalnie odnosić się do:

  • Strachu: Subtelnie podnosi obawy związane z uproszczeniem, co może wywoływać niepokój wobec nieuwzględnionych złożoności.
  • Odrzucenia: Przypuszczalne odrazy do zbyt uproszczonych narracji mogą być wywoływane, jeśli ujęcie będzie krytykować powierzchowne lub ignorantne dyskusje polityczne.

Jednak są one indirektnie i mogą zależeć bardzo mocno od kontekstowych subtelności w otaczających dyskusjach. Bez dodatkowego emocjonalnego treści lub konkretnych apelów charakterystycznych dla zdefiniowanych błędów (np. strachowanie, wyraźne wywoływanie winy), to zdanie jest głównie skupione na wywoływaniu rozumu poprzez autorytet, a nie manipulacji uczuciami. To położenie podkreśla wiarygodność, często docenianą, gdy analizuje się błędy logiczne, które mogą manipulować emocjami bez solidnych argumentów.

Podsumowując:

  • Stwierdzenie odnosi się do autorytetu („dawny minister spraw wewnętrznych”), potencjalnie wywołując szacunek lub zaufanie (ponieważ sugeruje wewnętrzne wiedzę).
  • Może wywoływać subtelny niepokój wobec uproszczenia jako zagrożenia (choć techniki strachu nie są tu wyraźnie wykorzystywane).
  • Szczegółowy kontekst mógłby być konieczny do klasyfikacji konkretnego apelu emocjonalnego, ponieważ wewnętrzne apelacje często pochodzą od tego, jak słuchacze emocjonalnie reagują na problemy poza samym stwierdzeniem.

Pamiętaj, że błędy logiczne zwykle obejmują błędy logiczne, ale często rezonują na głębszych, emocjonalnie wpływowych osobistych przekonaniach lub społecznych niepokojach – dlatego to stwierdzenie warto dokładnie rozpakować wokół tego, co słuchacze mogą subtelnie łączyć w większych dialogach.

Przydatne linki