Cloud & Infrastructure

أصبح سباق الحوسبة مفتوحة المصدر الآن بمثابة سباق للقدرات

كيف تغير الحوسبة من فئة GB300 إصدارات الذكاء الاصطناعي ذات الوزن المفتوح والتقييم واقتصاديات الاستدلال وقابلية التكرار واستراتيجية الذكاء الاصطناعي الخاصة.

بقلم Hamza Diaz

24 يونيو 202610 دقيقة قراءة46 مشاهدة

قد لا تبدأ قصة الذكاء الاصطناعي ذات الوزن المفتوح التالية ببطاقة نموذجية. قد يبدأ الأمر بعقد مركز بيانات، أو تصميم حامل، أو إشارة سعة تشير إلى أن المختبر يستعد لتدريب وتقييم وخدمة شيء باهظ الثمن قبل أن يتمكن أي شخص من اختبار الأوزان.

هذا هو الدرس المفيد وراء مناقشة قدرة الذكاء الاصطناعي الانعكاسي التي لم يتم التحقق منها والمتداولة بين مراقبي البنية التحتية للذكاء الاصطناعي. تعامل معها على أنها حث على الاجتهاد، وليس كدليل على أن نموذجًا معينًا سيصل في تاريخ محدد أو أنه تم تأكيد صفقة بنية تحتية محددة. إن سؤال المشغل أفضل من سؤال القيل والقال: إذا تمكن مختبر ذو وزن مفتوح من الوصول إلى البنية التحتية من فئة GB300 قبل أن يصبح نموذجه عامًا، فما الذي يجب على فريقك إعداده الآن؟

وجهة نظري بسيطة. لم تعد الأوزان المفتوحة مرادفًا بسيطًا للذكاء الاصطناعي الرخيص. يمكنها تحسين التحكم، وقابلية النقل، وقابلية التدقيق، وخيارات الخروج، ولكن أقوى أنظمة الوزن المفتوح الحدودية قد لا تزال تعتمد على الحوسبة النادرة، ومكدسات الخدمة المتخصصة، والتقييم الدقيق. الفريق الذي ينتظر إصدار النموذج قبل إعداد اختباراته قد تأخر بالفعل. إن الفريق الذي يعيد تصميم الإنتاج حول نموذج لم يتم إصداره يرتكب خطأً مختلفًا.

ما هي التغييرات في سعة فئة GB300

تقدم NVIDIA GB300 NVL72 وBlackwell Ultra كأنظمة لأحمال عمل الذكاء الاصطناعي عالية الكثافة في المصانع والاستدلال الثقيل. النقاط ذات الصلة للمشغلين ليست مطالبات الأداء الرئيسي. النقاط هي الذاكرة، والشبكات، وكثافة الحامل، وتصميم الخدمة، وحقيقة أن التدريب وتخطيط الاستدلال قد بدأا في الاندماج.

يمكن للمختبر الغني بالحوسبة تغيير تسلسل الإصدار الخاص به. غالبًا ما كانت الأنماط القديمة مفتوحة المصدر تبدو مألوفة: قم بنشر ورقة بحثية، ونشر الأوزان، والسماح للمجتمع بقياس الأداء، ثم مشاهدة مقدمي خدمات الاستضافة وهم يقومون بتجميع النموذج. يمكن للمختبر الذي يتمتع بقدرة كبيرة على التدريب والخدمة أن يختار ترتيبًا مختلفًا. قد يتم إطلاق نقطة نهاية مستضافة أولاً، أو إطلاق الأوزان لاحقًا، أو إجراء تقييمات خاصة على نطاق واسع قبل المعايير العامة، أو الحفاظ على تفاصيل ما بعد التدريب هادئة مع تشجيع التبني النهائي.

وهذا يغير أربعة أنواع من التخطيط الحسابي.

حساب التدريب هو القدرة المستخدمة لبناء النموذج أو تكييفه. حساب الاستدلال هو القدرة اللازمة لخدمة المستخدمين بوقت استجابة وتكلفة مقبولين. إن حوسبة التقييم هي ما يسمح للفريق بإجراء اختبارات متكررة عبر سياقات طويلة، واستدعاءات الأدوات، وحالات الأمان، ومجموعات الانحدار. غالبًا ما يتم تجاهل فئة حساب قابلية التكرار: الأجهزة والبيانات والنواة والوصفات والوقت اللازم للتأكد من أن النموذج يتصرف بالطريقة التي تقترحها ملاحظات الإصدار الخاصة به.

لا تحتاج معظم الشركات إلى امتلاك بنية تحتية من فئة GB300. إنهم بحاجة إلى معرفة متى يعتمد النموذج الجديد عليه. إذا كان النموذج يعمل بشكل جيد فقط مع الذاكرة الكبيرة، أو النوى المتخصصة، أو التجميع القوي، أو طبقة التوجيه المستضافة، فإن الخطة التشغيلية تبدو مختلفة تمامًا عن النموذج المحلي الذي يعمل بشكل مقبول على صندوق GPU صغير.

خريطة جاهزية الحوسبة مفتوحة المصدر في Optijara

استخدم خريطة بسيطة قبل مناقشة التبني. ضع الوصول إلى النموذج على محور واحد وحساب الاعتماد على المحور الآخر. ثم اسأل ما إذا كانت بيئة التشغيل لديك جاهزة للربع الذي ينتمي إليه النموذج بالفعل، وليس للربع الذي تتضمنه النسخة التسويقية.حورية البحر QuadrantChart العنوان: خريطة جاهزية الحوسبة مفتوحة المصدر لـ Optijara المحور السيني الوصول المغلق أو المستضاف --> الأوزان المفتوحة المحور ص - اعتماد منخفض على الحساب -> اعتماد عالي على الحساب Quadrant-1 واجهات برمجة التطبيقات (APIs) المستضافة ذات الوزن المفتوح الربع الثاني من الأوزان المفتوحة الحدودية على نطاق المصنع AI رباعي-3 النماذج المستضافة المغلقة الربع-4 المحلية-الأوزان المفتوحة الأولى

تعتبر الأوزان المفتوحة المحلية أولاً مفيدة عندما يكون التحكم أو الخصوصية أو زمن الاستجابة أو الاستخدام دون اتصال أو القدرة على التنبؤ بالتكلفة أكثر أهمية من ذروة الأداء المعياري. يمكن أن تكون واجهات برمجة التطبيقات (APIs) المستضافة ذات الوزن المفتوح بمثابة حل وسط عملي عندما يتعامل الموفر مع تعقيد الخدمة ولكن تظل عائلة النموذج قابلة للنقل. ينتمي الضبط الدقيق للمجموعة الخاصة إلى الفرق التي لديها ما يكفي من الحجم والبيانات الحساسة والملكية الفنية لتبرير البنية التحتية المخصصة. تقع الأوزان المفتوحة الحدودية على نطاق المصنع AI في الربع الأصعب: قد تكون الأوزان متاحة، ولكن النتائج القوية قد لا تزال تتطلب أعمال تقديم وضبط وتقييم مكثفة.

تمنع الخريطة خطأً شائعًا واحدًا. يسمع الناس الأوزان المفتوحة ويفترضون التكلفة المنخفضة والخصوصية السهلة وإمكانية التكرار. لا شيء من هؤلاء يتبع تلقائيا. تخبرك الأوزان المفتوحة بشيء ما حول الوصول إلى المعلمات. ولا تخبرك ما إذا كانت بيانات التدريب متاحة، أو ما إذا كان الترخيص يناسب حالة الاستخدام الخاصة بك، أو ما إذا كان النموذج يخدم ضمن ميزانية زمن الاستجابة الخاصة بك، أو ما إذا كان بإمكان فريقك تشغيله تحت ضغط الحادث.

مصفوفة القرار لإشارات السعة

عندما يعلن معمل ذو وزن مفتوح غني بالحوسبة أو يتم الإبلاغ عن أن لديه سعة كبيرة، استخدم الإشارة، ولكن لا تبالغ في رد فعلك.

إشارة	على ما يدل عليه	استجابة المشغل	الأدلة اللازمة	خطر إذا تم تجاهله
شريك القدرة اسمه	التدريب الجاد أو نية الخدمة	تتبع التوقيت وخيارات النشر	المصدر الأساسي، تأكيد الشريك، تفاصيل الشراء	يبدأ التخطيط بعد الإطلاق
الكشف عن جيل مسرع	مقياس النموذج المحتمل وملف تعريف الخدمة	تحديث افتراضات أجهزة الاختبار	وثائق النظام الرسمية ومواصفات الاستضافة	الكمون ومفاجآت الذاكرة
تم التأكيد على تصميم الشبكات أو الرف	أعباء عمل كبيرة موزعة	تحقق من احتياجات مكدس العرض وقابلية المراقبة	ملاحظات الهندسة المعمارية، مستندات البائع	الطيارين الهشة
تظهر تلميحات التقييم العامة	قد يكون الإصدار قريبًا، أو أن المراسلة قيد الاختبار	إعداد مقارنات خط الأساس	منهجية التقييم وتناسب المهمة	مطاردة المعيار
تمت معاينة شروط الترخيص	قد يكون الاستخدام التجاري محدودًا أو مشروطًا	إرسال مراجعة قانونية مبكرة	نص الترخيص، شروط الاستخدام المقبولة	إعادة صياغة بعد الطيار الفني
تمت مناقشة نقطة النهاية المستضافة	قد لا تصل الأوزان أولا	توجيه النموذج والتخطيط الاحتياطي	مستندات API، مصطلحات معالجة البيانات	قفل البائع عن طريق الصدفة

القاعدة بسيطة: لا تقم بإعادة تصميم بنية الإنتاج حول نموذج لم يتم طرحه بعد. قم بإعداد أدوات التقييم، وفحوصات جاهزية البيانات، ومراجعات الخصوصية، ونماذج التكلفة. وينتقل هذا العمل عبر النماذج، لذلك نادرا ما يتم إهداره.

يجب أن تبدأ فرق المنتجات الصغيرة باختبارات مستضافة ومعايير سير عمل ضيقة. يجب على الشركات الناشئة المعتمدة على الذكاء الاصطناعي إعداد طبقات التوجيه وقياس التكلفة عن بعد قبل أن يصبح النموذج الجديد تبعية أساسية. يجب على الفرق التي لديها بيانات حساسة نقل أسئلة الخصوصية والاحتفاظ والتدقيق والترخيص إلى مقدمة قائمة الانتظار. يجب على مشغلي النظام الأساسي اختبار سلوك الدُفعة، والتخزين المؤقت، والتراجع، وإصدار النموذج، والاستجابة للحوادث قبل أن يقوم أي شخص باستدعاء النموذج جاهزًا للإنتاج.

قائمة التحقق من التنفيذقبل الإصدار الرئيسي التالي للوزن المفتوح، قم ببناء الأجزاء المملة.

من أجل الاستعداد للتقييم، قم بتجميع المطالبات التمثيلية ومجموعات بيانات المهام من سير العمل الحقيقي. قم بتضمين الحالات السهلة، وحالات الحافة، وحالات الرفض، وحالات السياق الطويل، وحالات استخدام الأدوات. حدد معنى الإجابة الجيدة قبل النظر إلى مخرجات النموذج. أضف اختبارات الانحدار لحالات الفشل التي تعرفها بالفعل من النماذج الحالية. احتفظ بخط أساس من نموذج مستضاف واحد على الأقل ونموذج محلي أصغر، لذلك يجب أن يحتل النموذج الجديد مكانه.

بالنسبة لاقتصاديات الاستدلال، قم بتقدير طول السياق المتوقع وطول المخرجات وحجم الطلب والتزامن وإمكانية الدفع. قم بتدوين افتراضات ذاكرة وحدة معالجة الرسومات، وخيارات التكميم، وسلوك ذاكرة التخزين المؤقت، والمسارات الاحتياطية. التكلفة لكل رمز رفيع جدًا كمقياس. تعد التكلفة لكل مهمة ناجحة أفضل لأنها تتضمن عمليات إعادة المحاولة والمراجعة البشرية وأخطاء زمن الاستجابة وفشل النماذج.

للاستعداد للذكاء الاصطناعي الخاص، قم بتصنيف البيانات حسب الحساسية. قرر ما الذي يمكن أن يغادر البيئة، وما الذي يجب أن يبقى بالداخل، وما يتطلب سجلات التدقيق، وما يحتاج إلى حدود للاحتفاظ. ضوابط الوصول إلى الخريطة قبل الطيار. لا يعد النشر الخاص بدون التسجيل وتحديد الإصدار والتراجع أكثر أمانًا تلقائيًا. من الصعب فحصها.

من أجل جاهزية البنية، قم بوضع تجارب العرض في حاويات، وأضف إمكانية الملاحظة من اليوم الأول، واحتفظ بتوجيه النموذج منفصلاً عن منطق التطبيق. يجب ألا يعرف المنتج ما إذا كان الطلب سينتقل إلى نقطة نهاية مستضافة أو إلى مجموعة خاصة أو إلى نقطة احتياطية محلية أصغر. يجب أن تعرف طبقة التوجيه، وتسجل، وتبدل عندما يفشل النموذج المختار.

ما هي الفرق التي تخطئ

الخطأ الأول هو التعامل مع الأوزان المفتوحة على أنها قابلة للتكرار. قد يتطلب إعادة إنتاج السلوك بيانات تدريب غير عامة، وطرق ما بعد التدريب موصوفة جزئيًا فقط، ونواة متخصصة، ومجموعة يمكن لعدد قليل من الفرق استئجارها، وإعداد تقييم يتوافق مع بيئة الإصدار. الأوزان المفتوحة مفيدة. إنهم ليسوا آلة الزمن للعودة إلى المختبر.

الخطأ الثاني هو مقارنة نتائج المتصدرين دون قيود الإرسال. النموذج الذي يفوز بمعيار ولكنه يفتقد هدف زمن الاستجابة p95، أو يقطع استدعاءات الأداة، أو يسرب السياق الحساس إلى السجلات، أو يكلف الكثير لكل حالة تم حلها، ليس أفضل لسير عملك. تعتبر النتائج المرجعية نقطة انطلاق. فهي ليست خطة اعتماد.

الخطأ الثالث هو تجاهل قيود مركز البيانات. يتتبع Epoch AI نمو وتركيز مراكز بيانات الذكاء الاصطناعي الكبيرة من خلال صور الأقمار الصناعية والتصاريح والإفصاحات العامة والتقديرات. تشكل الطاقة والتبريد والشبكات وكثافة الحامل والجداول الزمنية للتسليم ومواهب العمليات ما يمكن تدريبه وخدمته. تشكل هذه القيود أيضًا مدى التوفر. إذا كان النموذج يحتاج إلى إعداد عرض نادر، فقد يعمل الطيار الخاص بك في عرض تجريبي ويفشل في ظل الطلب العادي.

الخطأ الرابع هو إجبار الذكاء الاصطناعي المحلي والأوزان المفتوحة الحدودية على نفس الصندوق. يعد الذكاء الاصطناعي المحلي ذا قيمة عندما تحتاج إلى التحكم أو الخصوصية أو المرونة أو زمن الوصول المتوقع أو التشغيل دون اتصال بالإنترنت. تعتبر الأوزان المفتوحة الحدودية ذات قيمة عندما تحتاج إلى قدرة أعلى وقابلية نقل أكبر مما توفره واجهة برمجة التطبيقات المغلقة. في بعض الأحيان تتداخل هذه الأهداف. في كثير من الأحيان لا يفعلون ذلك.

حيث لا يجوز استخدام نماذج الوزن المفتوح من عصر GB300 حتى الآنلا تستخدم نموذجًا جديدًا ثقيلًا لسير العمل منخفض الحجم حيث تكون واجهة برمجة التطبيقات المستضافة أبسط والمخاطر متواضعة. لا تستخدمه على الحافة عندما تكون حدود الأجهزة صارمة ويمكن لنموذج أصغر التعامل مع المهمة. لا تستخدمه في مهام سير العمل حيث لا يمكنك تحديد النجاح، أو جمع حالات الاختبار، أو مراجعة حالات الفشل. تجنب عمليات النشر الحساسة للغاية حتى تصبح عناصر التحكم في الخصوصية وقواعد الاحتفاظ ومسارات التدقيق وخطط الحوادث حقيقية.

تجنب أيضًا التبني عندما لا يمتلك أحد العمليات. يتعين على شخص ما مراقبة التكلفة وزمن الوصول وانجراف الجودة وتغييرات الترخيص وتغييرات إصدار النموذج والسلوك الاحتياطي. وبدون ذلك المالك يصبح الطيار تابعاً بلا عجلة قيادة.

المسار الأكثر هدوءًا يعمل بشكل أفضل: المراقبة، والقياس، والتجربة، ثم التعزيز. تعني المراقبة تتبع القدرات الموثوقة والإفراج والترخيص وإشارات النظام البيئي. تعني المقارنة المعيارية اختبار النموذج مقابل مهامك. ويعني التجريب وضعه في سير عمل محدود مع مراجعة بشرية. التصلب يعني إضافة إمكانية المراقبة، والتراجع، والتحكم في الوصول، ودفاتر التشغيل التشغيلية.

خطة القياس

قياس الأداء الفني أولا. تتبع معدل نجاح المهمة، وفئات الرفض والخطأ، وزمن الوصول p50 وp95، والإنتاجية، وموثوقية السياق، ودقة استدعاء الأداة، والتكلفة لكل مهمة ناجحة، ومعدل دخول ذاكرة التخزين المؤقت، وتكرار التراجع. أبقِ القياسات مرتبطة بسير العمل الخاص بك. لن تخبرك المطالبات العامة ما إذا كان النموذج يساعد في قائمة انتظار الدعم أو عملية مراجعة المحلل أو المساعد الهندسي أو أداة البحث الداخلي.

ثم قياس تأثير التشغيل. تتضمن المقاييس المفيدة الوقت اللازم لاتخاذ القرار، وعبء المراجعة، وجودة إجابات الدعم، وساعات العمل الهندسية التي تم تحويلها من الخطوات اليدوية، والاعتماد من قبل مالكي سير العمل. تجنب مطالبات عائد الاستثمار العالمية. الرقم المهم هو الرقم الذي يستطيع فريقك إعادة إنتاجه قبل وبعد التحكم بالطيار.

وتستحق مقاييس الحوكمة نفس الانضباط. تتبع أحداث التعرض للبيانات، واكتمال التدقيق، والامتثال للترخيص، وملاحظات انحراف النموذج، ونجاح الإجراء الاحتياطي، ووقت الاستجابة للحوادث. هذه ليست تفاصيل الأوراق. إنهم يقررون ما إذا كان النشر ذو الوزن المفتوح يمكن أن ينجو من الاتصال بالإنتاج.

بإمكان Optijara مساعدة الفرق في اختبار الضغط على هذه الخريطة قبل الالتزام بها. يبدأ العمل عادةً بتصميم التقييم، وتوجيه النموذج، وخيارات النشر الخاصة، وخريطة طريق تربط التبني باحتياجات سير العمل المقاسة بدلاً من الضجيج النموذجي.

أصول الاستعداد المقروءة آليًا

المصادر التي يجب الاحتفاظ بها في حزمة التخطيط:

https://reflection.ai/
https://www.nvidia.com/en-us/data-center/gb300-nvl72/
https://nvidianews.nvidia.com/news/nvidia-blackwell-ultra-ai-factory-platform-paves-way-for-age-of-ai-reasoning
https://opensource.org/ai/open-source-ai-definition
https://epoch.ai/data/data-centers
https://epoch.ai/data-insights/largest-data-center-compute
https://hai.stanford.edu/ai-index

json { "model_status": "عائلة النماذج التي لم يتم إصدارها أو التي تم إصدارها حديثًا قيد التقييم"، "compute_signal": "الوصول المُعلن عنه أو المؤكد إلى البنية التحتية عالية الكثافة للذكاء الاصطناعي"، "adoption_posture": "إعداد أصول التقييم والهندسة المعمارية القابلة لإعادة الاستخدام قبل الالتزام بالإنتاج"، "evaluation_requirements": ["مجموعة بيانات المهمة"، "مقارنة خط الأساس"، "نطاقات زمن الوصول"، "تصنيف الفشل"، "معايير المراجعة البشرية"]، "تبعيات_البنية التحتية": ["مكدس الخدمة"، "ملف تعريف الذاكرة"، "التجميع"، "قابلية الملاحظة"، "التوجيه الاحتياطي"]، "تحذيرات": ["ملاءمة الترخيص"، "التزامات الخصوصية"، "حدود مركز البيانات"، "تباين الموفر"، "جودة التقييم"]، "next_actions": ["مراقبة المصادر الموثوقة"، "تشغيل معايير سير العمل"، "التجربة مع التراجع"، "التشديد فقط بعد الأدلة"] }إن سباق الحوسبة مفتوحة المصدر لا يقتصر فقط على من يعلن عن النموذج التالي. بل يتعلق الأمر بالتوقيت، وقابلية التكرار، واقتصاديات الاستدلال، والاستعداد. لقد أصبحت القدرة بمثابة نظام للإنذار المبكر. استخدمه بهذه الطريقة. راقب الإشارات، ولكن قم ببناء الاختبارات التي ستظل مهمة عندما تستمر دورة الشائعات.

النقاط الرئيسية

1يتم تشكيل إستراتيجية النموذج مفتوح الوزن بشكل متزايد من خلال الوصول إلى الحوسبة قبل إصدار النماذج العامة.
2تعتبر البنية التحتية من فئة GB300 مهمة من الناحية التشغيلية لأن الذاكرة والشبكات وكثافة الحامل وتصميم الخدمة يمكن أن تؤثر على توقيت الإصدار واقتصاديات الاستدلال.
3لا تعني الأوزان المفتوحة تلقائيًا تكلفة منخفضة أو خصوصية سهلة أو سلوكًا قابلاً للتكرار.
4يجب على الفرق إعداد أدوات التقييم وطبقات التوجيه ومراجعات الخصوصية ونماذج التكلفة قبل المراهنة على النموذج الذي لم يتم إصداره.
5تفصل خريطة جاهزية الحوسبة مفتوحة المصدر في Optijara الوصول إلى النموذج عن الاعتماد على الحوسبة حتى تتمكن الفرق من تصنيف مخاطر الاعتماد بشكل أكثر دقة.
6يجب أن ينتقل التبني من المراقبة إلى المقارنة المرجعية ومن الطيارين المحدودين إلى التشديد، وليس مباشرة من الإشاعة إلى الإنتاج.

الخلاصة

لقد أصبحت القدرات بمثابة نظام إنذار مبكر لاستراتيجية الذكاء الاصطناعي المفتوحة. لا تتمثل الخطوة العملية في مطاردة كل صفقة تم الإبلاغ عنها أو إعادة البناء حول نموذج لم يتم إصداره. إنه تصنيف النموذج باستخدام خريطة جاهزية الحوسبة مفتوحة المصدر لـ Optijara، وإعداد أصول التقييم والتوجيه، والاختبار مقابل سير العمل الحقيقي، والتقوية فقط عندما تدعمها الأدلة. يمكن للفرق التي تقوم بتقييم النماذج ذات الوزن المفتوح استخدام Optijara لتصميم أدوات التقييم، وهندسة الاستدلال، وخطط الذكاء الاصطناعي الخاصة، وخرائط طريق الاعتماد قبل الالتزام بأنظمة الإنتاج.

الأسئلة الشائعة

ما هو سباق الحوسبة مفتوحة المصدر في الذكاء الاصطناعي؟

إنها المنافسة بين المختبرات النموذجية ذات الوزن المفتوح والمفتوحة المصدر لتأمين ما يكفي من التدريب والتقييم والبنية التحتية للاستدلال لبناء وتقديم نماذج قادرة قبل أو بجانب الإصدارات العامة.

لماذا تعتبر سعة الذكاء الاصطناعي من فئة GB300 مهمة بالنسبة للنماذج ذات الوزن المفتوح؟

تم تصميم أنظمة فئة GB300 لمصانع الذكاء الاصطناعي عالية الكثافة وأحمال العمل المنطقية. ويمكن أن يؤثر ذلك على كيفية قيام المختبرات بتدريب النماذج وتقييمها وخدمتها، ولكن ينبغي التعامل مع القدرة كإشارة استراتيجية وليس كدليل على جودة النموذج.

هل يعني الوزن المفتوح أن النموذج سهل التشغيل بشكل خاص؟

لا. يمكن أن تعمل الأوزان المفتوحة على تحسين التحكم وقابلية النقل، ولكن النشر الخاص لا يزال يعتمد على حجم النموذج والأجهزة والذاكرة ومكدس الخدمة وشروط الترخيص وضوابط الأمان وجودة التقييم.

كيف يجب على الفرق الاستعداد لنماذج الذكاء الاصطناعي الغنية بالحوسبة التي لم يتم إصدارها بعد؟

وينبغي عليهم إعداد مجموعات بيانات التقييم، ومقارنات خط الأساس، ونماذج التكلفة، ومراجعات الخصوصية، وهندسة توجيه النماذج، وخطط التراجع بدلاً من إعادة تصميم أنظمة الإنتاج حول نموذج لم يتم إصداره بعد.

ما الذي يجب على الفرق قياسه عند اختبار نموذج الوزن المفتوح الجديد؟

يجب على الفرق قياس نجاح المهمة، وزمن الوصول، والإنتاجية، والتكلفة لكل مهمة ناجحة، وموثوقية السياق، ودقة استخدام الأداة، وملاءمة الخصوصية، وملاءمة الترخيص، ونجاح التراجع، والعبء التشغيلي.

المصادر

شارك هذا المقال

بقلم

Hamza Diaz

حمزة دياز هو مؤسس Optijara، حيث يبني وكلاء ذكاء اصطناعي عمليين، وأنظمة أتمتة، وسير عمل Copilot للشركات الخدمية. يكتب عن تشغيل الذكاء الاصطناعي، واستراتيجية الوكلاء، والتطبيق الواقعي للفرق التي تريد أنظمة مفيدة بدلًا من الضجيج.