صعود شريحة LLM ASIC: لماذا تهم شريحة الاستنتاج؟
تُسرّع الشرائح المتخصصة من إجراء استنتاجات الذكاء الاصطناعي، وتُقلّل تكاليفها
المستقبل الذكاء الاصطناعي ليس فقط عن نماذج أذكى النماذج - بل عن سيلكون أذكى.
العتاد المخصص لـ استنتاج النماذج الكبيرة يقود ثورة مشابهة لتغيير تعدين البيتكوين إلى ASICs.
الخيال الكهربائي - تحويل النص إلى صورة باستخدام LLM.
لماذا تحتاج النماذج الكبيرة إلى عتادها الخاص
النماذج الكبيرة للغة قد غيرت الذكاء الاصطناعي، ولكن خلف كل رد فعل سلس توجد حسابات وحركة ذاكرة هائلة. وبما أن تكاليف الاستنتاج تصبح هي المهيمنة - غالبًا ما تتجاوز تكاليف التدريب على مدار حياة النموذج - فإن العتاد المُحسّن خاصةً للاستنتاج يصبح منطقيًا اقتصاديًا.
التشبيه مع تعدين البيتكوين ليس مصادفة. في كلتا الحالتين، يتمكن العمل الثقيل للغاية والمتكرر من الاستفادة بشكل هائل من السيلكون المخصص الذي يزيل كل شيء غير ضروري.
الدروس المستفادة من تعدين البيتكوين
تطور تعدين البيتكوين عبر أربع جيلات:
العصر | العتاد | الفائدة الرئيسية | المحدودية |
---|---|---|---|
2015–2020 | GPUs (CUDA, ROCm) | المرونة | استهلاك كبير للطاقة، محدود بالذاكرة |
2021–2023 | TPUs, NPUs | التخصيص على نطاق واسع | لا يزال موجهًا للتدريب |
2024–2025 | ASICs لـ Transformer | مُحسّن للاستنتاج بمنخفض بت | محدودية في التعميم |
الذكاء الاصطناعي يسير على نفس المسار. كل انتقال تحسّن الأداء وفعالية الطاقة بمقدار كبير.
ومع ذلك، على عكس ASICs الخاصة بالبيتكوين (التي تحسب فقط SHA-256)، فإن ASICs الخاصة بالاستنتاج تحتاج إلى بعض المرونة. تتطور النماذج، تتغير العمليات، وتحسّن مخططات الدقة. المفتاح هو التخصيص بشكل كافٍ - تثبيت الأنماط الأساسية بينما الحفاظ على القدرة على التكيف في الحواف.
ما الذي يجعل استنتاج النماذج الكبيرة مختلفًا عن التدريب
مهمة الاستنتاج لها خصائص فريدة يمكن للعتاد المخصص الاستفادة منها:
- الدقة المنخفضة هي المهيمنة - تعمل الحسابات ببت 8، 4، حتى ثلاثية أو ثنائية بشكل جيد للاستنتاج
- الذاكرة هي العائق - نقل الأوزان ومخازن KV يستهلك طاقة أكثر بكثير من الحسابات
- التأخير أكثر أهمية من الإنتاجية - يتوقع المستخدمون الحصول على الرموز في أقل من 200 مللي ثانية
- التوافر المتوازي الضخم - آلاف الطلبات المتزامنة للاستنتاج لكل شريحة
- الأنماط المتوقعة - طبقات Transformer هي مبنية بشكل منظم ويمكن تثبيتها
- فرص التجزئة - تزداد النماذج استخدام تقنيات التقليم وMoE (Mixture-of-Experts)
يمكن لشريحة مخصصة للاستنتاج تثبيت هذه الافتراضات لتحقيق أداء أفضل بنسبة 10–50 مرة لكل واط مقارنة بالمعالجات العامة.
من يبني العتاد المُحسّن للنماذج الكبيرة للغة
تتسخّر سوق ASICs الخاصة بالاستنتاج مع لاعبين مثبتين وشركات ناشئة طموحة:
الشركة | الشريحة / المنصة | التخصص |
---|---|---|
Groq | LPU (وحدة معالجة اللغة) | التحديدية للتدفق مع النماذج الكبيرة للغة |
Etched AI | Sohu ASIC | محرك Transformer مُثبت مسبقًا |
Tenstorrent | Grayskull / Blackhole | تعلم آلي عام مع شبكة عالية النطاق |
OpenAI × Broadcom | شريحة استنتاج مخصصة | مخطط إصدار متوقع في عام 2026 |
Intel | Crescent Island | شريحة Xe3P فقط للاستنتاج مع 160GB HBM |
Cerebras | Wafer-Scale Engine (WSE-3) | ذاكرة العرض الضخمة على الدوائر |
هذه ليست بضائع هلامية - إنها مُستخدم في مراكز البيانات اليوم. بالإضافة إلى ذلك، تبني شركات ناشئة مثل d-Matrix، Rain AI، Mythic، وTenet شرائح من الصفر حول أنماط حسابات Transformer.
بنية شريحة ASIC للاستنتاج Transformer
ما هي الشكل الحقيقي لشريحة مُحسّنة لـ Transformer من الداخل؟
+--------------------------------------+
| واجهة المضيف |
| (PCIe / CXL / NVLink / Ethernet) |
+--------------------------------------+
| الاتصال الداخلي (شبكة/حلقة) |
+--------------------------------------+
| وحدات المعالجة / النواة |
| — وحدات ضربة مصفوفة كثيفة |
| — وحدات ALU بمنخفض الدقة (int8/int4) |
| — وحدات تشفير / تفعيل |
+--------------------------------------+
| ذاكرة SRAM الداخلية ومخازن KV |
| — الأوزان الساخنة، مخازن مدمجة |
+--------------------------------------+
| أنابيب التشفير / التفعيل |
+--------------------------------------+
| المخطط / المُتحكم |
| — محرك تنفيذ الرسومات الثابتة |
+--------------------------------------+
| واجهة DRAM / HBM خارج الشريحة |
+--------------------------------------+
الخصائص المعمارية الرئيسية تشمل:
- وحدات المعالجة - وحدات ضربة مصفوفة كثيفة مُحسّنة لعمليات int8، int4، وثلاثية
- ذاكرة SRAM الداخلية - مخازن كبيرة تحتوي على الأوزان الساخنة ومخازن KV، مما يقلل من الوصول المكلف إلى ذاكرة DRAM
- الاتصالات المتسلسلة - تُتيح بنية الشبكة فعالية التوسع عبر عدة شرائح
- محولات التشفير - تشفير / تفعيل في الوقت الفعلي بين الطبقات
- مكدس المترجم - يترجم الرسومات PyTorch/ONNX مباشرة إلى ميكرو-عمليات مخصصة للشريحة
- وحدات الانتباه المُثبتة مسبقًا - تزيل عبء التحكم في العمليات مثل softmax وغيرها
الفلسفة التصميمية تشبه ASICs الخاصة بالبيتكوين: كل ترانزستور يخدم المهمة المحددة. لا تضيع أي سيلكون على الميزات التي لا تحتاجها الاستنتاجات.
معايير مقارنة حقيقية: GPUs مقابل ASICs للاستنتاج
هذا هو كيف تقارن العتاد المخصص للاستنتاج مع GPUs الأحدث:
النموذج | العتاد | الإنتاجية (رمز/ثانية) | وقت أول رمز | مضاعفة الأداء |
---|---|---|---|---|
Llama-2-70B | NVIDIA H100 (8x DGX) | ~80–100 | ~1.7 ثانية | المعيار (1×) |
Llama-2-70B | Groq LPU | 241–300 | 0.22 ثانية | 3–18× أسرع |
Llama-3.3-70B | Groq LPU | ~276 | ~0.2 ثانية | 3× متسق |
Gemma-7B | Groq LPU | 814 | <0.1 ثانية | 5–15× أسرع |
المصادر: Groq.com، ArtificialAnalysis.ai، مدونة مطور NVIDIA
هذه الأرقام توضح ليس تحسينات تدريجية، بل تحسينات من الدرجة الأولى في الإنتاجية والتأخير.
التنازلات الحرجة
التركيز على المهام الخاصة قوي لكنه يأتي مع تحديات:
-
المرونة مقابل الكفاءة. الASIC الكاملة تمر عبر نماذج Transformer الحالية لكنها قد تواجه صعوبات مع العمليات المستقبلية. ماذا يحدث عندما تتطور آليات الانتباه أو تظهر عائلات جديدة من النماذج؟
-
التشفير والدقة. توفير الدقة المنخفضة يوفر كميات هائلة من الطاقة، لكن إدارة تدهور الدقة يتطلب تقنيات تشفير معقدة. لا يمكن لكل النماذج أن تُشفّر بسلاسة إلى 4 بت أو أقل.
-
البيئة البرمجية. العتاد بدون مترجمات، وحدات، وتقنيات قوية لا فائدة له. لا يزال NVIDIA يهيمن بشكل كبير بسبب نضج نظام CUDA. يجب على مصنعي الشرائح الجديدة الاستثمار بشكل كبير في البرمجيات.
-
التكلفة والمخاطر. توصيل شريحة تكلف ملايين الدولارات وتستغرق 12–24 شهرًا. بالنسبة للشركات الناشئة، هذا هو رهان كبير على افتراضات معمارية قد لا تتحقق.
مع ذلك، في المقياس الضخم، حتى تحسن 2× في الكفاءة تُترجم إلى مليارات من الدولارات في التوفير. بالنسبة لـ مزوّدي السحابة الذين يتعاملون مع ملايين طلبات الاستنتاج في الثانية، فإن السيلكون المخصص يصبح أكثر فأكثر غير قابل للتفاوض.
كيف يبدو شريحة الاستنتاج المثالية لـ LLM
الميزة | المواصفات المثالية |
---|---|
العملية | 3–5nm node |
ذاكرة SRAM الداخلية | 100MB+ مدمجة |
الدقة | دعم مدمج لـ int8 / int4 / ternary |
الإنتاجية | 500+ رمز/ثانية (نموذج 70B) |
التأخير | <100 مللي ثانية وقت أول رمز |
الاتصال | روابط منخفضة التأخير أو روابط ضوئية |
المترجم | أداة تحويل PyTorch/ONNX إلى ميكرو-عمليات |
الطاقة | <0.3 جول لكل رمز |
المستقبل: 2026–2030 وما بعده
توقع أن تتحول منظور العتاد للاستنتاج إلى ثلاث طبقات:
-
شرائح التدريب. الGPUs عالية الجودة مثل NVIDIA B200 و AMD Instinct MI400 ستستمر في هيمنة التدريب بمرنها FP16/FP8 وعرض الذاكرة الضخم.
-
ASICs للاستنتاج. محركات Transformer مُثبتة مسبقًا ستتعامل مع خدمة الإنتاج في المقياس الضخم، مُحسّنة للفعالية والتكلفة.
-
NPUs للحواف. شرائح صغيرة وفعالة للغاية ستجلب النماذج المُشفّرة إلى الهواتف الذكية، المركبات، الأجهزة الذكية، والروبوتات، مما يمكّن الذكاء المحلي دون الاعتماد على السحابة.
بالإضافة إلى العتاد فقط، سنرى:
- الكластرات الهجينة - GPUs لتدريب مرن، ASICs لخدمة فعالة
- خدمة الاستنتاج كخدمة - مزوّدي السحابة الكبار يُطلقون شرائح مخصصة (مثل AWS Inferentia، Google TPU)
- تصميم متكامل بين العتاد والبرمجيات - نماذج مُصممة صراحة لتسهيلها على العتاد عبر التجزئة، الوعي بالتشفير، والانتباه المجمّع
- معايير مفتوحة - واجهات API معيارية لمنع الاعتماد على الموردين
الخلاصة النهائية
“ASIC-ization” للاستنتاج في الذكاء الاصطناعي جارية بالفعل. كما تطور تعدين البيتكوين من CPUs إلى سيلكون مخصص، فإن الذكاء الاصطناعي يسير على نفس المسار.
الثورة التالية في الذكاء الاصطناعي لن تكون عن نماذج أكبر - بل عن شرائح أفضل. العتاد المُحسّن للأنماط المحددة للاستنتاج Transformer سيحدد من يمكنه نشر الذكاء الاصطناعي بفعالية على نطاق واسع.
كما أن معدني البيتكوين تحسّن كل واط مهدور، فإن عتاد الاستنتاج سيضغط على كل FLOP لكل جول. عندما يحدث ذلك، فإن الاكتشاف الحقيقي لن يكون في الخوارزميات - بل في السيلكون الذي يشغلها.
مستقبل الذكاء الاصطناعي يتم تشكيله في السيلكون، transistor by transistor.
روابط مفيدة
- نتائج اختبارات Groq الرسمية
- تحليل القيمة - قائمة ترتيب أداء النماذج الكبيرة للغة
- موجز تقني لـ NVIDIA H100
- Etched AI - إعلان عن شريحة Transformer ASIC
- مُحرك Wafer-Scale لـ Cerebras
- أسعار NVidia RTX 5080 و RTX 5090 في أستراليا - أكتوبر 2025
- مقارنة مساعدي كتابة الكود الذكاء الاصطناعي
- أداء النماذج الكبيرة للغة وقنوات PCIe: اعتبارات مهمة
- اختبار سرعة النماذج الكبيرة للغة
- مقارنة ملاءمة شريحة NVidia للذكاء الاصطناعي
- هل Quadro RTX 5880 Ada 48GB جيد؟
- شُعبية اللغات البرمجية والأدوات البرمجية والمنصات السحابية