جemma2 مقابل Qwen2 مقابل Mistral Nemo مقابل...

اختبار اكتشاف الأخطاء المنطقية

Page content

في الآونة الأخيرة، شهدنا إصدار عدد من النماذج الجديدة من LLMs. أوقات مثيرة. لنختبر ونرى كيف تؤدي الأداء عند اكتشاف الخطا المنطقية.

عرض mistral nemo

ماذا وماذا نفعل

في الاختبار السابق، قمنا بالفعل بفحص كيف LLM تكتشف الخطا المنطقية - llama3 مقابل phi3 مقابل الآخرين. فعلت ذلك بشكل جيد، عشنا نتائج llama3-8b-Q8 و phi3-medium-4k-instruct-q6_K.

في هذا الاختبار، نقوم بنفس الشيء باستخدام Gemma2، Qwen2 و Mistral Nemo.

نحن نختبر أفضل النماذج الممكنة، لكنها يجب أن تلبي قيودنا - يجب أن تناسب بطاقة GPU من فئة المستهلك، والتي تحتوي على 16 جيجابايت من VRAM. مع هذا المعيار في الاعتبار، اخترنا التالية من التكميم:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

وهذا إصدار qwen2:

  • qwen2:72b-instruct-q2_K

يبلغ حجمه 29 جيجابايت، لكن دعنا نختبره بأي حال.

يرجى ملاحظة هنا أننا لا نعود إلى استخدام ‘الكميم’ الافتراضي q4. إذا تتناسب q8 داخل بطاقة GPU الخاصة بنا 16 جيجابايت من VRAM - نحن نذهب لها، مجرد محاولة أفضل ما يمكننا في ظروفنا.

DT;DR: النتيجة

النماذج السابقة التي اختبرناها في اكتشاف الخطا المنطقية باستخدام LLMs. يرجى رؤية في تلك المنشور ما نختبره الآن.

هنا جدول محدث حيث توجد نماذجنا الجديدة في الخط العريض.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

اختصارات في أسماء الخطا المنطقية: A 2 CS=الاستناد إلى المشاعر

اختصارات في أسماء النماذج:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

التبسيط المفرط=الخيار المحدود

الخلاصة

نتوقع أن تجد LLMs في النص المثال الخطا المنطقية Strawman، Ad Hominem، الاستناد إلى السلطة والتبسيط المفرط.

يمكن لمعظم النماذج الجديدة أن ترى في نصنا الاستناد إلى السلطة، ويمكن بعضها رؤية Ad Hominem، وبعضها التبسيط المفرط. أظهرت النتائج الجيدة qwen2:7b-instruct-q8_0 و gemma2:9b-instruct-q8_0.

لكن، لا يزال الفائزين هم نفسهم.

النموذج المختار من قبل المحرر هو phi3:14b-medium-4k-instruct-q6_K. إنه يتناسب بسهولة مع 16 جيجابايت من الذاكرة، وهو ذكي للغاية. المركز الثاني هو phi3:3.8b-mini-4k-instruct-q8_0. مجموعة النماذج llama3 هي جيدة أيضًا.

Mistral Nemo

لنراجع نتائج Mistral Nemo أولاً، حتى لو لم تكن الأفضل، لأن لديهم روبوتًا جميلًا في صورهم.

Mistral nemo 12b

النموذج: mistral-nemo:12b-instruct-2407-q8_0

الرد:

العبارة التي قدمتها تحتوي على خطا منطقية رئيسيين:

  1. الاستناد إلى السلطة (الاستناد إلى الموقف): المتحدث يستند إلى سلطة وزير سابق للشئون الداخلية دون تقديم أي حجج أو أدلة من هذا الشخص. يفترض فقط أن لأن هذا الشخص شغل منصبًا معينًا، يجب قبول رأيه كمقبول.

    • الخطا: “كما يجب أن يعرفه وزير سابق للشئون الداخلية.”
  2. الخطة المغوية (الاستنتاج غير المتعلق): المتحدث يبدأ بعرض حجة معقولة (“عدد كبير من الناس، قلة من المنازل”) لكنه يرفضها دون تقديم أي حجج أو أدلة. بدلًا من ذلك، يستند إلى سلطة الوزير السابق.

    • الخطا: “الآن، يبدو من النظرة الأولى أن كل شيء يبدو معقولًا تمامًا: عدد كبير من الناس، قلة من المنازل. لكنه لا يزال لا يكون بسيطًا أبدًا…”

بينما لا تستخدم العبارة لغة عاطفية صريحة، فإن الخطا الاستناد إلى السلطة والخطة المغوية يمكن اعتبارها أشكالًا من الاستناد إلى المشاعر بشكل أوسع، لأنها تحاول إقناع المستمع بناءً على عوامل أخرى غير الحجة المنطقية.


بناءً على العبارة التي قدمتها، هناك خطا منطقية تعمل:

  1. Ad Hominem: هذا هجوم موجه نحو الشخص الذي يقدم الحجة بدلًا من الحجة نفسها. في هذه الحالة، يُفترض أن لأن المتحدث لديه خبرة كوزير سابق للشئون الداخلية، يجب أن يعرف أن الأمور ليست بسيطة. العبارة تشير إلى أن عدم فهمه (أو ربما سوء فهمه) يعود إلى دوره السابق، بدلًا من مواجهة محتوى الحجة.

  2. الاستناد إلى التعقيد: هذا الخطا يحدث عندما يستخدم شخص التعقيد كعذر لعدم التفكير العميق في قضية أو لرفض الأدلة أو الاستدلالات التي تتعارض مع موقفه. في هذا السياق، “إنه لا يزال لا يكون بسيطًا أبدًا” يمكن اعتباره طريقة لرفض الحجة الأولية دون مواجهة مزاياها الفعلية.

بينما لا توجد استناد صريح إلى المشاعر في العبارة نفسها، فإن استخدام الخطا مثل Ad Hominem والاستناد إلى التعقيد يمكن أن يثير المشاعر مثل الاستياء أو الإحباط من الحجج البسيطة بشكل خفي. ومع ذلك، هذه ليست استنادًا مباشرًا إلى المشاعر بنفس الطريقة التي تفعلها العبارة مثل “يجب أن توافق لأنك ستشعر بالسوء إذا لم تفعل”.

إذن، بينما هناك بالفعل خطا منطقية في هذه العبارة، فهي ليست استنادًا مباشرًا إلى المشاعر.

Gemma 2 - 9b

شعار Gemma 2

النموذج: gemma2:9b-instruct-q8_0

الرد:

العبارة “الآن، يبدو من النظرة الأولى أن كل شيء يبدو معقولًا تمامًا: عدد كبير من الناس، قلة من المنازل. لكنه لا يزال لا يكون بسيطًا أبدًا، كما يجب أن يعرفه وزير سابق للشئون الداخلية” تحتوي على عدة خطا منطقية:

  • الاستناد إلى السلطة: العبارة تعتمد على سلطة “وزير سابق للشئون الداخلية” لرفض الحجة الأولية. المتحدث يفترض أن لأن الشخص شغل منصبًا من السلطة، فإن رأيه يحمل وزنًا أكبر. هذا الخطا يتجاهل احتمال أن يكون الوزير خاطئًا أو أن خبرته لا تنطبق على هذه الموقف المحدد.

  • الاستهجان: العبارة “إنه لا يزال لا يكون بسيطًا أبدًا” ترفض الحجة الأولية دون تقديم أي حجج أو أدلة حقيقية. إنها إعلان استهجان يهدف إلى إغلاق المحادثة بدلًا من مواجهة الأفكار المقدمة.

يرجى إخباري إذا كنت ترغب في استكشاف أمثلة أخرى من الخطا المنطقية!


العبارة “الآن، يبدو من النظرة الأولى أن كل شيء يبدو معقولًا تمامًا: عدد كبير من الناس، قلة من المنازل. لكنه لا يزال لا يكون بسيطًا أبدًا، كما يجب أن يعرفه وزير سابق للشئون الداخلية” تحتوي على عدة خطا منطقية:

  • الاستناد إلى السلطة: العبارة تشير ضمنًا إلى أن لأن المتحدث يذكر “وزير سابق للشئون الداخلية”، فإن رأيه يحمل وزنًا أكبر. هذا يفترض أن كون الشخص وزيرًا سابقًا يمنح خبرة تلقائية على هذا الموقف المحدد.

  • الاستهجان: العبارة “إنه لا يزال لا يكون بسيطًا أبدًا” يمكن اعتبارها شكلًا من الاستهجان. ترفض الحجة البسيطة دون تقديم حجج أو استكشاف التعقيدات.

يرجى إخباري إذا كنت ترغب في تحليل عبارات أخرى أو حجج للكشف عن الخطا!

Gemma 2 - 27b

النموذج: gemma2:27b-instruct-q3_K_L

الرد:

العبارة “لكن هذا لا يكون بسيطًا أبدًا، كما يجب أن يعرفه وزير سابق للشئون الداخلية” تستخدم الخطا الاستناد إلى السلطة.

هنا السبب:

  • تفترض الخبرة: العبارة تشير إلى أن لأن الشخص هو وزير سابق للشئون الداخلية، فإنه يمتلك معرفة خاصة حول القضايا الاجتماعية المعقدة مثل نقص المنازل.
  • الخبرة ليست دائمًا ذات صلة: بينما قد يكون لدى الوزير السابق بعض المعرفة حول سياسات السكن، فإن خبرته لا تجعله خبيرًا في جميع العوامل المساهمة في نقص السكن.

العبارة تسعى إلى رفض حجة محتملة (“عدد كبير من الناس، قلة من المنازل”) فقط لأنها تأتي من شخص يُنظر إليه على أنه غير خبير في المجال.

يرجى إخباري إذا كان لديك أي عبارات أخرى ترغب في تحليلها!


العبارة تحتوي على بعض العناصر التي تشبه الخطا المنطقية، على الرغم من أنها ليست حالة واضحة:

  • الاستناد إلى السلطة (ضعيف): “كما يجب أن يعرفه وزير سابق للشئون الداخلية.” هذا يحاول إعطاء وزن للحجة من خلال استدعاء سلطة المتحدث السابقة على الموضوع. ومع ذلك، فهو ضعيف لأنه لا يقدم أي خبرة أو استدلال محددة من الوزير لدعم وجهة نظره.

  • Ad Hominem (محتمل): حسب السياق والأسلوب، يمكن اعتبار العبارة كهجم Ad Hominem إذا كانت تهدف إلى إضعاف الحجة المقابلة فقط بناءً على من يطرحها بدلًا من مواجهة محتوى الحجة. على سبيل المثال، إذا أشارت العبارة إلى أن الشخص غير قادر على فهم سياسة السكن لأنه كان وزيرًا، فهذا سيكون Ad Hominem.

ملاحظة مهمة: بدون سياق إضافي عن ما أوضحه الشخص بالفعل والأسلوب العام، من الصعب تصنيف هذه كأمثلة قوية من الخطا.

يرجى إخباري إذا كان لديك أي عبارات أخرى ترغب في تحليلها!

Qwen 2 - 7b

شعار Qwen 2

النموذج: qwen2:7b-instruct-q8_0

الرد:

العبارة التي قدمتها تحتوي على عدة خطا منطقية:

  1. الاستناد إلى المشاعر (الاستناد إلى المشاعر): العبارة “الآن، يبدو من النظرة الأولى أن كل شيء يبدو معقولًا تمامًا” تحاول إثارة شعور بالمنطقية والبساطة في عقل المستمع دون تقديم أدلة أو استدلالات كافية.
  2. الخطة المغوية: من خلال ذكر أن “وزير سابق للشئون الداخلية يجب أن يعرف”، يطرح المتحدث نقطة غير ذات صلة (المعرفة من شخص معين) لتحويل الانتباه من القضية الرئيسية، مما قد يخدع الجمهور ليشعر أن خبرة الشخص ذات صلة عندما قد لا تكون كذلك.
  3. الاستناد إلى السلطة: على الرغم من أنه لم يتم ذكره صراحة في هذه العبارة، إذا أوضح شخص أن “وزير سابق للشئون الداخلية” يعرف شيئًا لأنه كان وزيرًا، فهذا سيكون خطا الاستناد إلى السلطة، حيث يفترض أن منصبه يمنح خبرة دون تقديم أدلة لخبرته أو استدلالاته المحددة.

هذه الخطا المنطقية يمكن أن تضعف قوة الحجة من خلال الاستناد إلى المشاعر بدلًا من المنطق والملاءمة.


العبارة التي قدمتها:

“الآن، يبدو من النظرة الأولى أن كل شيء يبدو معقولًا تمامًا: عدد كبير من الناس، قلة من المنازل. لكنه لا يزال لا يكون بسيطًا أبدًا، كما يجب أن يعرفه وزير سابق للشئون الداخلية.”

لا تحتوي على أي من الخطا الاستناد إلى المشاعر (الاستناد إلى المشاعر) المذكورة في قائمتك. ومع ذلك، يمكن أن يكون هناك بعض الخطا المنطقية المحتملة:

  • Ad Hominem إذا تم استخدام هذه العبارة كهجوم على شخص معين (“وزير سابق للشئون الداخلية”) بدلًا من مواجهة حجته.
  • الخطة المغوية: قد يكون هناك محاولة لتحويل الانتباه بعيدًا عن القضية أو الحجج الأصلية من خلال ذكر موضوعات غير ذات صلة، على الرغم من أن لا يوجد خطة مغوية واضحة في الجملة التي قدمتها.

هناك أيضًا خطا منطقية أخرى غير المذكورة تحت “الاستناد إلى المشاعر” مثل:

  • الخيار المحدود: تقديم قضية معقدة في شكل ثنائي بسيط حيث لا يمكن مناقشتها بشكل كافٍ. لا تشير الجملة المقدمة إلى هذا النوع من الخطا.
  • الاستناد إلى السلطة: استخدام رأي أو هوية شخص معروف بدلًا من أدلة صحيحة لدعم الحجة. لا تنطبق على عبارةك لأن لا توجد سلطة مُستشهد بها.

يرجى توضيح إذا كانت هناك عبارة أخرى كنت تقصد لتحليلها تحت الاستناد إلى المشاعر، وسنكون سعداء بمساعدتك في ذلك!

Qwen 2 - 72b

أعرف، لكن هذا الوزن الزائد ليس من فئتنا، لكن فقط فضولي…

النموذج: qwen2:72b-instruct-q2_K

الرد:

العبارة المقدمة لا تحتوي بشكل مباشر على استعارة للعواطف كما هو محدد في قائمة المغالطات المنطقية. ومع ذلك، فإنها تشير إلى مغالطة منطقية محتملة تُعرف باسم “استعارة للسلطة” أو “الاستدلال من سلطة”. هذا لأن المتحدث يشير إلى أن الوزير السابق للداخلية يجب أن يعرف بشكل أفضل، مما يوحي بأن سلطته على الموضوع يجعل رأيه أكثر صحة.

العبارة لا تستخدم بشكل مباشر استعارة للعواطف، بل تستخدم سلطة الوزير السابق للداخلية المفترضة على المعرفة كوسيلة لتعزيز التعقيد في الحجة المقدمة. يمكن رؤية ذلك في بنية الجملة: “لكن الأمر لا يُعد بسيطًا، كما يجب أن يعرفه الوزير السابق للداخلية”.

للمراجعة:

  • المغالطة المنطقية الحاضرة: استعارة للسلطة
  • التعريف: تحدث استعارة للسلطة عندما يُعتبر التصريح صحيحًا بناءً على مصداقية أو خبرة الشخص الذي يطرح المطالبة، بدلًا من قوة الأدلة.
  • المثال في العبارة: “كما يجب أن يعرفه الوزير السابق للداخلية” يشير إلى أن رأي شخص لديه خبرة كهذه يحمل وزنًا أكبر ويمكن استخدامه لرفض التفسيرات البسيطة.

العبارة التي قدمتها لا تُعد بالضرورة محفزة على استجابة عاطفية محددة، بل تلجأ إلى معرفة المستمع والخبرة من خلال اقتراح أن التفسيرات البسيطة غالبًا لا تخبرنا بالكامل. ومع ذلك، إذا كنا نحللها من أجل مغالطة عاطفية محتملة:

استعارة للسلطة: تشير بشكل غير مباشر إلى “وزير الداخلية السابق” الذي يجب أن يعرف بشكل أفضل من أن يقبل التفسيرات البسيطة. ويمكن رؤية ذلك كمحاولة غير مباشرة لمنح سلطة وموثوقية للتعقيد في القضية، مما يمكن أن يلبي بشكل خفي رغبتنا في الاتجاه نحو الإرشاد من الخبراء.

العبارة لا تستخدم بشكل مباشر استعارات عاطفية مثل الخوف، الشعور بالذنب، السخرية، الغضب، الكراهية، الاشمئزاز، المديح، التماسيح، الوطنية أو التقليل، لكنها تشير بشكل غير مباشر إلى سلطة (تُلبي رغبتنا في الاحترام والانقياد) لتأكيد تعقيد القضايا التي لا يمكن حلها ببساطة عن طريق إلقاء اللوم على “عدد كبير من الناس” لعدم وجود منازل. ويمكن أيضًا ربط ذلك ب:

استعارة للمنطق: تدفعنا إلى النظر إلى ما وراء الحلول البسيطة والاعتبار أن المشكلات قد تكون لها أسباب أعمق أو أكثر تعقيدًا مما يبدو في البداية.

بشكل عام، على الرغم من أن هناك ربما لا توجد استعارة عاطفية قوية ملحوظة في العبارة، إلا أنها تحاول الاستفادة من سلطة ومنطق - جوانب غالبًا ما تُقدّر في اتخاذ القرار المنطقي. هذا يسلط الضوء على لعب محتمل على العواطف المرتبطة بالثقة في الأشخاص المؤثرين لخلق شكوك حول الرؤى البسيطة وتشجيع التفكير الأعمق من قبل المستمعين الذين يقدرون التعقيد في القضايا المجتمعية.

نسخة أكثر دقة قد تؤدي إلى عناصر مرتبطة ب:

  • الخوف: التحفيز الخفي للقلق بشأن البساطة، مما يثير القلق حول التعقيدات غير المُعالجة.
  • الاشمئزاز: الاستياء المُحتمل من القصص البسيطة إذا تم توجيهها في سياقات تنتقد المناقشات السياسية السطحية أو الجاهلية.

ومع ذلك، هذه الاستعارات غير مباشرة وقد تعتمد بشكل كبير على السياقات الدقيقة في المناقشات المحيطة. دون محتوى عاطفي إضافي أو استعارات محددة تتميز بالمغالطات (مثل التحريض على الخوف، أو الاستدعاء الواضح للذنب)، فإن العبارة تركز بشكل أساسي على استعارة المنطق من خلال سلطة، بدلًا من التلاعب بالمشاعر. هذا الموقف يسلط الضوء على المصداقية، والتي غالبًا ما تُقدّر عند تحليل المغالطات المنطقية التي يمكن أن تؤثر على المشاعر دون أدلة قوية.

للمراجعة:

  • العبارة تشير إلى سلطة (“وزير الداخلية السابق”)، مما قد يثير الاحترام أو الثقة (بما يوحي بمعرفة داخلية).
  • يمكن أن تؤدي إلى قلق خفيف تجاه البساطة كتهديد (رغم عدم استخدام تقنيات الخوف بشكل واضح هنا).
  • قد يكون من الضروري سياق أكثر تفصيلًا لتصنيفات الاستعارة العاطفية المحددة، نظرًا لأن الاستعارات غالبًا ما تأتي من كيف يرتبط المستمعون عاطفيًا بالقضايا خارج العبارة نفسها.

تذكّر، المغالطات عادة ما تتعلق بالأخطاء المنطقية، لكنها غالبًا ما تتردد على العواطف والتحيزات الشخصية أو المخاوف المجتمعية العميقة – مما يجعل إمكانات العبارة تستحق التحليل بعناية حول ما يمكن أن يرتبط المستمعون به بشكل خفي في المحادثات الأوسع.

روابط مفيدة