Leanstral 1.5 ومقعد الاختبار للاستدلال القابل للتحقق
دليل عملي لاختبار Leanstral 1.5، وتوليد الإثبات، وتتبعات الاستدلال، والذكاء الاصطناعي للتحقق في الحلقة للمكدسات الخاصة.
يتم الحكم على العديد من عمليات إطلاق النماذج من خلال طقوس مألوفة: مسح الجدول المعياري، ومقارنة الترتيب، وتحديد ما إذا كان الإصدار مهمًا أم لا. يستحق Leanstral 1.5 اختبارًا مختلفًا.
تقدم ميسترال Leanstral 1.5 كنموذج مصمم للاستدلال وأعمال الإثبات الموجهة نحو Lean، مع مراجع داعمة في إعلان Mistral، ونظرة عامة على النموذج، وبطاقة نموذج Hugging Face. وهذا لا يعني أنه يجب على المشغلين معاملتها على أنها جاهزة للإنتاج لكل مهمة حساسة. وهذا يعني أن سؤال التقييم يتغير. السؤال المفيد ليس فقط "هل أجاب النموذج بشكل صحيح؟" والسؤال الأكثر حدة هو: "هل يمكن للنموذج أن ينتج قطعة أثرية يمكن لنظام آخر أن يرفضها، أو يفحصها، أو يصلحها، أو يوافق عليها؟"
المتصدرين لا تزال مهمة. إنها تعطي إشارة تقريبية، ويجب أن يؤدي ملف التعريف الضعيف إلى إبطاء أي محادثة حول النشر. لكن الدرجات المرجعية هي وكيل محدود لسير العمل حيث تعتمد الإجابة على الاشتقاق، أو بنية الإثبات، أو الاختبار القابل للتكرار، أو القاعدة التي يجب أن تظل قائمة بعد التدقيق. بالنسبة لسير العمل، فإن التفسير المقنع لا يكفي. أنت تريد إجابة، وأداة يمكن التحقق منها، ومدققًا مستقلاً، وقاعدة واضحة لما يحدث عندما يقول المدقق لا.
تتضمن المصادر المستخدمة في هذا الإطار منشور Mistral's Leanstral 1.5 في https://mistral.ai/news/leanstral-1-5/, نظرة عامة على نموذج Mistral في https://docs.mistral.ai/models/overview, بطاقة نموذج Hugging Face في https://huggingface.co/mistralai/Leanstral-1.5-119B-A6B, Stanford HELM في https://crfm.stanford.edu/helm/latest/, تقييم Hugging Face في https://huggingface.co/docs/evaluate/index, تقييمات OpenAI على https://github.com/openai/evals, بحث التفكير الأنثروبي الموسع المرئي في https://www.anthropic.com/research/visible-extended-thinking, وLean 4 في https://github.com/leanprover/lean4.
استدلال أداة التحقق في الحلقة بعبارات واضحة
استدلال التحقق في الحلقة هو سير عمل حيث يقترح النموذج إجابة بالإضافة إلى شيء قابل للفحص: دليل، أو اشتقاق، أو مسار تعليمات برمجية، أو تتبع منظم، أو كائن مملوء بالمخطط، أو خطة مقيدة. يقوم مدقق منفصل بعد ذلك بتقييم القطعة الأثرية وفقًا لقواعد محددة. قد يكون المدقق Lean 4، أو مجموعة اختبار الوحدة، أو مدقق النوع، أو محلل ثابت، أو محلل رمزي، أو محرك سياسة، أو مدقق بيانات، أو أداة مراجعة خاصة بالمجال.
إن آثار استدلال اللغة الطبيعية مفيدة، لكنها ليست مثل الحقيقة. يعد عمل الأنثروبيك في التفكير الموسع المرئي بمثابة تذكير جيد بأن الكشف عن التفكير يتطلب الرعاية. يمكن أن يساعد التتبع في الفحص وتصحيح الأخطاء والتقييم، ومع ذلك قد يكون غير مكتمل أو لاحقاً أو مضللاً. القاعدة التشغيلية بسيطة: ثق بنتيجة التحقق أكثر من تفسير النموذج، ولا تثق بأي منهما بدون مجموعة تقييم خاصة بالمهمة.
إحدى الطرق العملية لعرض نماذج الاستدلال هي الحكم عليها بشكل أقل شبهًا بالكتاب وأكثر شبهًا بالمحللين المبتدئين الذين يعملون تحت الاختبارات. إذا لم يكن من الممكن فحص العمل، فإن النموذج ينتج الثقة في الغالب. إذا كان من الممكن فحص العمل، فيمكن للنظام رفض المخرجات السيئة، وقياس أنماط الفشل، وتحديد ما إذا كانت محاولات الإصلاح مفيدة أم لا.
منضدة اختبار الاستدلال لأداة التحقق من Optijara
استخدم منصة اختبار صغيرة قابلة للتكرار قبل إضافة Leanstral 1.5، أو أي نموذج موجه نحو الإثبات، إلى مكدس الذكاء الاصطناعي الخاص أو المحلي. يجب أن يفرض منضدة الاختبار ثلاثة مخرجات في كل جولة: الإجابة النهائية، والمنطق أو الإثبات، ونتيجة التحقق. إذا كان أحد هذه العناصر مفقودًا، فأنت لا تختبر منطق التحقق في الحلقة. أنت تختبر نموذج الإقناع.حورية البحر مخطط انسيابي TD أ[مهمة المستخدم] --> ب[يقترح النموذج الإجابة] B --> C [قطعة أثرية منظمة] ج --> د[مدقق مستقل]
ف --> ج
| د --> | تمرير | E[مراجعة بشرية أو استخدام محدود للإنتاج] |
|---|---|---|
| D --> | فشل | F[إعادة المحاولة أو الإصلاح باستخدام تعليقات المدقق] |
| F --> | فشل متكرر | G[إيقاف أو تصعيد أو تغيير حدود المهمة] |
المرحلة 1 هي جيل المرشح. قم بإعطاء النموذج مهمة محدودة واطلب إجابة بالإضافة إلى إثبات أو اشتقاق أو تغيير كود قابل للاختبار أو قطعة أثرية للقرار المنظم. لا تبدأ بمطالبات استراتيجية واسعة النطاق. اختر العمل الذي يكون فيه الفشل مرئيًا.
المرحلة الثانية هي التطبيع. قم بتحويل القطعة الأثرية إلى التنسيق الذي يفهمه المدقق بالفعل. بالنسبة للعمل بأسلوب Lean، قد يعني ذلك بيانًا رسميًا ومحاولة إثبات. بالنسبة للتعليمات البرمجية، قد يعني ذلك التصحيح والاختبارات والتنفيذ القابل للتكرار. بالنسبة لمنطق الأعمال، قد يعني ذلك كائن JSON الذي يمكن التحقق من صحته مقابل قواعد المخطط والسياسة.
المرحلة 3 هي التحقق المستقل. لا ينبغي للنموذج أن يصنف نفسه. قم بتشغيل المدقق الخارجي وقم بتسجيل النتيجة الأولية. إذا كان لدى المدقق تغطية جزئية، سجل ذلك أيضًا. إن النجاح في الاختبارات الضيقة ليس دليلاً على أن الإجابة صحيحة عالميًا.
المرحلة 4 هي قياس الإصلاح. قد يظل النموذج الذي يفشل مرة واحدة ولكن يتم إصلاحه بدقة بعد تعليقات المدقق مفيدًا لعمليات سير العمل المدعومة. النموذج الذي يستمر في إنتاج أدلة موثوقة غير صحيحة هو مرشح أكثر خطورة، حتى لو بدا النثر مصقولًا.
المرحلة 5 هي التنسيب. قرر ما إذا كان يمكن أتمتة سير العمل أو مساعدته أو إيقافه. تحتاج الأتمتة إلى تغطية تحقق عالية، وخطورة منخفضة للفشل، وزمن انتقال مستقر، ومسار للتراجع. يمكن أن يتحمل الاستخدام المدعوم المزيد من حالات الفشل إذا كانت المراجعة البشرية واقعية. يجب أن تظل بعض المهام خارج النطاق.
تتبع معدل النجاح، ومعدل العناصر غير الصالحة، ومعدل نجاح الإصلاح، ووقت الاستجابة، والتكلفة، وقابلية التكرار، وتحميل المراجعة البشرية، وملاءمة الخصوصية، وخطورة الفشل. هذه المقاييس مهمة أكثر من مجرد رقم مرجعي عام واحد.
حيث يساعد التحقق
يكون التحقق أقوى عندما يمكن التحقق من المخرجات من خلال عملية خارجية موثوقة. الرياضيات الرسمية وشبه الرسمية هي أوضح مثال. يمكن لـ Lean 4 التحقق من صحة قطعة الإثبات الرسمية، لكنها لا تضمن ترجمة السؤال الواقعي الأصلي إلى البيان الرسمي الصحيح. تحتاج خطوة الترجمة هذه إلى مراجعة بشرية.
غالبًا ما يكون الكود أكثر عملية. يمكن للنموذج الموجه نحو البرهان أو النموذج الثقيل أن يقترح التنفيذ، ثم يمكن للاختبارات، وفحص النوع، والتحليل الثابت، والماسحات الضوئية الأمنية، والتنفيذ القابل للتكرار أن يتراجع. والنتيجة ليست جودة تلقائية. إنها حلقة تعليقات أفضل من قراءة شرح واثق والأمل في نجاح الكود.
ويمكن أن يكون التخطيط العلمي والهندسي مفيدًا أيضًا، ولكن فقط عندما يكون المدقق واضحًا. يمكن لعمليات التحقق من القيود، والتحقق من صحة المعادلات، والتحقق من صحة الاقتباس، والمراجعة بمساعدة المحاكاة، وعمليات التحقق من تناسق الوحدة اكتشاف أخطاء معينة. إنهم لا يصدرون حكمًا علميًا مفتوحًا.
يمكن أن يستخدم سير عمل الأعمال نفس النمط عندما تكون القواعد صريحة. أمثلة افتراضية: فحص موافقات الفاتورة مقابل قواعد أمر الشراء، أو فحص قرارات الأهلية مقابل منطق السياسة، أو فحص واردات البيانات مقابل المخططات، أو فحص استخراج شرط العقد مقابل تصنيف خاضع للرقابة. هذه ليست مطالبات العملاء. إنها أمثلة على نوع سير العمل حيث تحتوي تعليقات المدقق على شيء ملموس يجب فحصه.
حيث يكون التحقق مضللاًيمكن للمدقق التحقق من الشيء الخطأ. هذا هو وضع الفشل الأكثر شيوعا. يمكن أن يكون الدليل الصحيح رسميًا غير ذي صلة إذا تم إضفاء الطابع الرسمي على سؤال العمل بشكل غير صحيح. يمكن أن تمر مجموعة الاختبار دون المسار الذي ينقطع في الإنتاج. يمكن لمدقق السياسة الموافقة على المخرجات لأن السياسة نفسها قديمة.
تشير أعمال التقييم العامة، مثل Stanford HELM، وHugging Face Evaluate، وOpenAI Evals، إلى نفس الدرس: يجب أن يكون التقييم محددًا للمهمة ومتعدد الأبعاد. الدقة ليست كافية. تحتاج إلى فحص الموثوقية والمعايرة وزمن الوصول والتكلفة وسلوك الرفض والتحيز والأمان وقابلية الصيانة في السياق الذي سيتم فيه تشغيل النموذج.
انتبه إلى Goodharting ضد الاختبارات، والإضفاء الرسمي الهش، ومشاكل جودة البيانات المخفية، والسياق القديم، ومحاولات تجاوز المدقق، والثقة المفرطة من اجتياز عمليات التحقق الضيقة. تضيف آثار الاستدلال إمكانية الملاحظة الجزئية. فهي لا تكشف عن سجل سببي كامل لسبب إنتاج النموذج للإجابة.
لا تستخدم النماذج الموجهة نحو الإثبات كنظام قرار أساسي للحكم الشخصي، أو التفاوض في السياق العالي، أو المشورة الطبية التي لم يتم التحقق منها، أو المشورة القانونية، أو المشورة المالية، أو القرارات الإستراتيجية الغامضة، أو أي مهمة لا يوجد فيها مدقق موثوق ولا يمكن مراجعة الأخطاء بأمان. في هذه الحالات، قد تخلق حلقة التحقق إحساسًا زائفًا بالسيطرة.
مصفوفة القرار لوضع المكدس الخاص
| المعيار | نوبة قوية | نوبة ضعيفة |
|---|---|---|
| التحقق مناسبا | يمكن التحقق من المخرجات من خلال Lean 4 أو الاختبارات أو المخططات أو قواعد السياسة أو الأدوات الحتمية | يعتمد الإخراج على الذوق أو التفاوض أو الحكم المفتوح |
| حساسية البيانات | قد يؤدي النشر المحلي أو الخاص إلى تقليل التعرض عندما يتم التحكم في الوصول والتسجيل والاحتفاظ | تمت الموافقة بالفعل على استخدام البيانات للنموذج الخارجي |
| قيمة قطعة أثرية | تساعد البراهين أو الاختبارات أو الآثار أو الكائنات المنظمة المراجعين | الجواب النهائي هو أن أي شخص سوف يتفقد |
| الكمون والتكلفة | وقت التحقق الإضافي مقبول | يحتاج سير العمل إلى استجابات فورية بتكلفة منخفضة |
| الخبرة الداخلية | يمكن للفريق الاحتفاظ بعمليات التحقق ومراجعة حالات الفشل | لا يوجد مالك لإضفاء الطابع الرسمي أو الاختبارات أو المراقبة |
| المسار الاحتياطي | يتم تعريف المراجعة البشرية أو النموذج الأساسي أو قاعدة الإيقاف | تؤدي عمليات التحقق الفاشلة إلى عمليات إعادة المحاولة المخصصة |
هناك ثلاثة خيارات وضع معقولة. أولاً، قم بتشغيل نموذج مفتوح موجه للإثبات محليًا للمهام الحساسة الضيقة مع عمليات التحقق من النجاح أو الفشل بشكل واضح. ثانيًا، استخدمه كأخصائي في الاستدلال بجانب النموذج العام، حيث يقوم بصياغة القطع الأثرية التي يقوم المحققون والبشر بفحصها. ثالثاً: الحفاظ على النموذج العام وتحسين الداما الخارجية دون إضافة نموذج جديد بعد.
يمكن أن يكون النشر الخاص أو المحلي جذابًا لأحمال العمل الحساسة، ولكنه لا يزيل ضوابط الأمان أو مراجعة الوصول أو المراقبة أو اختبار الفريق الأحمر أو التقييم. لا يزال من الممكن أن تتسرب النماذج المحلية عبر السجلات، أو الأذونات الضعيفة، أو الحقن الفوري، أو سوء معالجة البيانات، أو العادات التشغيلية السيئة.
json { "model_category": "نموذج_الاستدلال_الدليلي", "candidate_model": "لينسترال 1.5"، "best_initial_use_cases": ["مساعدة رسمية في الإثبات"، "الكود مع الاختبارات"، "قواعد العمل التي تم التحقق من المخطط"]، "verifier_types": ["Lean 4"، "unit_tests"، "type_checks"، "static_ana Analysis"، "policy_rules"، "data_validators"]، "مستوى_المخاطر": "متوسط_حتى_تمر_تقييم_المهمة_المحددة", "go_no_go_criteria": ["تغطية المدقق معروفة"، "يتم قياس سلوك الإصلاح"، "تم تعيين حد المراجعة البشرية"، "يوجد مسار احتياطي"] }## قائمة مراجعة التنفيذ وخطة القياس
ابدأ صغيرًا. حدد حدود مهمة واحدة، ومدققًا واحدًا، ومجموعة تقييم واحدة قبل مناقشة النشر على نطاق واسع. قم بإعداد المطالبات التمثيلية والمخرجات المتوقعة وأمثلة الفشل. قم بتسجيل الإجابة، والمنتج، ونتيجة التحقق، ومحاولات الإصلاح، ووقت الاستجابة، وملاحظات المراجعة البشرية.
قم بتشغيل LLM عام أساسي، ونموذج محلي أصغر إذا كان ذلك مناسبًا، وسير عمل للتحقق فقط حيثما أمكن ذلك. ثم قم باختبار Leanstral 1.5 على نفس المجموعة. قارن بين جودة التمريرة الأولى وجودة المخرجات التي تم إصلاحها. النموذج الذي يحتاج إلى ثلاث حلقات إصلاح للحالات السهلة قد يكون مكلفًا للغاية لتشغيله، حتى لو نجح في النهاية.
قم بتضمين المطالبات الخصومية ومطالبات حالة الحافة: المدخلات المشوهة، والتعليمات الغامضة، والسياق المفقود، ومحاولات تجاوز التحقق، والحالات التي يكون فيها الرد الصحيح هو الرفض أو التصعيد. سجل خطورة الفشل، وليس فقط عدد الفشل. يمكن لدليل واحد غير صالح أن يكون أكثر أهمية من عدة أخطاء تنسيق غير ضارة.
يجب أن تتتبع مراقبة الإنتاج معدل فشل أداة التحقق، والانجراف في مزيج المهام، وحلقات الإصلاح المتكررة، ومعدلات المهلة، وأسباب التجاوز البشرية، وفساد ذاكرة التخزين المؤقت، ونتائج مراجعة الحادث. قم بتعيين قواعد التراجع قبل الإطلاق. إذا فشلت أداة التحقق بشكل متكرر، فلا ينبغي للنظام أن يعود بهدوء إلى الثقة في النموذج.
بالنسبة للفرق التي تقوم بتقييم هذه الفئة، يتمثل دور Optijara في المساعدة في تصميم أدوات التقييم العملية، وحلقات التحقق، وخطط النشر الخاصة حول القيود الحقيقية. وهذا يعني اختيار المهمة، وتحديد المدقق، ومقارنة خطوط الأساس، وقياس سلوك الإصلاح، وتحديد مكان بقاء المراجعة البشرية في الحلقة.
##أخطاء شائعة
الخطأ الأول هو التعامل مع آثار الاستدلال على أنها حقيقة أساسية. قم بإصلاحه عن طريق طلب قطع أثرية قابلة للتحقق والتحقق الخارجي.
والثاني هو اختبار مهام المتصدرين فقط. قم بإصلاحه عن طريق بناء مجموعة داخلية من العمل الذي سيراه النظام بالفعل.
والثالث هو تخطي مراجعة إضفاء الطابع الرسمي. قم بإصلاحه من خلال مطالبة مالك المجال بفحص ما إذا كان البيان الرسمي أو المخطط أو الاختبار أو القاعدة يتطابق مع المشكلة الأصلية.
والرابع هو السماح لعمليات إعادة المحاولة بإخفاء المنطق الضعيف. قم بإصلاحه عن طريق قياس عدد الإصلاحات وأنماط الفشل المتكررة وإجمالي حمل المراجعة.
الخامس هو النشر قبل تحديد المسارات الاحتياطية. قم بإصلاحه من خلال اتخاذ قرار مسبق عندما يقوم النظام بإعادة المحاولة أو التصعيد أو تبديل النموذج أو التوقف.
النقاط الرئيسية
- 1يجب تقييم Leanstral 1.5 كنموذج تفكير موجه نحو الإثبات، وليس فقط كإصدار آخر لجدول القياس.
- 2يعمل منطق التحقق في الحلقة بشكل أفضل عندما ينتج النموذج قطعة أثرية قابلة للتحقق ويمكن لنظام منفصل رفضها أو الموافقة عليها.
- 3تعد آثار الاستدلال باللغة الطبيعية مفيدة للفحص، ولكن لا ينبغي التعامل معها على أنها حقيقة أساسية دون التحقق من صحتها من الخارج.
- 4يتطلب منضدة اختبار الاستدلال Optijara Verifier-in-the-Loop إجابة وأداة استدلال أو إثبات ونتيجة تحقق في كل تشغيل.
- 5يجب على الفرق قياس معدل نجاح أداة التحقق، ومعدل العناصر غير الصالحة، ونجاح الإصلاح، وزمن الوصول، وقابلية التكرار، وحمل المراجعة البشرية، وخطورة الفشل.
- 6تعتبر النماذج الموجهة نحو الإثبات غير مناسبة للحكم الشخصي، أو النصائح عالية المخاطر، أو الإستراتيجية الغامضة، أو المهام التي لا يوجد فيها مدقق موثوق.
الخلاصة
يعد Leanstral 1.5 مثيرًا للاهتمام لأنه يدفع المحادثة من الإجابات ذات الصوت الأفضل إلى سير عمل منطقي يمكن التحقق منه. وهذا هو التحول المفيد. لا ينتمي النموذج الموجه نحو الإثبات إلى التقييم إلا عندما يمكن إقران مخرجاته مع أدوات التحقق الخارجية، وحدود المهام الضيقة، والاختبارات التمثيلية، والقواعد الاحتياطية.
إن الدليل التجريبي الصحيح ليس عرضًا منطقيًا واسع النطاق. إنه عبارة عن منصة اختبار يتم التحكم فيها مع أدوات الإجابة ونتائج التحقق وتتبع الإصلاح وحدود المراجعة البشرية. إذا كان هذا يبدو أقل بريقًا من الجدول المعياري، فهو أمر جيد. كما أنه أقرب كثيرًا إلى كيفية بناء أنظمة الذكاء الاصطناعي الموثوقة.
الأسئلة الشائعة
ما هو منطق التحقق في الحلقة؟
استدلال التحقق في الحلقة هو سير عمل الذكاء الاصطناعي حيث ينتج النموذج إجابة بالإضافة إلى قطعة أثرية يمكن التحقق منها، مثل دليل أو كود قابل للاختبار أو خطة منظمة أو اشتقاق، ويقوم مدقق مستقل بتقييم ما إذا كانت تلك القطعة الأثرية تفي بالقواعد المحددة.
لماذا يعد Leanstral 1.5 ذا صلة بجيل إثبات الذكاء الاصطناعي؟
تضع ميسترال Leanstral 1.5 حول الاستدلال وسير العمل الموجه نحو اللين/الإثبات، مما يجعلها ذات صلة بالفرق التي تستكشف النماذج التي تولد عناصر يمكن التحقق منها بدلاً من الإجابات الحرة فقط.
هل يمكن الوثوق بآثار المنطق؟
ليس بأنفسهم. يمكن أن تساعد آثار الاستدلال في الفحص وتصحيح الأخطاء، ولكن يجب على المشغلين التحقق من صحة المخرجات باستخدام أدوات تدقيق خارجية، أو اختبارات، أو أدوات رسمية، أو مراجعة بشرية اعتمادًا على المهمة.
أين يعمل الذكاء الاصطناعي للتحقق في الحلقة بشكل أفضل؟
يعمل بشكل أفضل عندما يمكن التحقق من المخرجات بشكل مستقل، مثل البراهين الرسمية، أو التعليمات البرمجية مع الاختبارات، أو التحقق من صحة البيانات، أو التخطيط المقيد، أو قواعد السياسة، أو منطق الأعمال القابل للتكرار.
كيف يجب على الفريق تقييم Leanstral 1.5 لمكدس الذكاء الاصطناعي الخاص؟
ابدأ بمهمة ضيقة، وحدد أداة التحقق، وأنشئ مجموعة تقييم، وقارن مع النماذج الأساسية، وقم بقياس أداء التمريرة الأولى والإصلاح، ومراجعة مدى خطورة الفشل، وتعيين حدود المراجعة البشرية قبل النشر.
المصادر
- https://mistral.ai/news/leanstral-1-5/
- https://docs.mistral.ai/models/overview
- https://huggingface.co/mistralai/Leanstral-1.5-119B-A6B
- https://crfm.stanford.edu/helm/latest/
- https://huggingface.co/docs/evaluate/index
- https://github.com/openai/evals
- https://www.anthropic.com/research/visible-extended-thinking
- https://github.com/leanprover/lean4
بقلم
Hamza Diazحمزة دياز هو مؤسس Optijara، حيث يبني وكلاء ذكاء اصطناعي عمليين، وأنظمة أتمتة، وسير عمل Copilot للشركات الخدمية. يكتب عن تشغيل الذكاء الاصطناعي، واستراتيجية الوكلاء، والتطبيق الواقعي للفرق التي تريد أنظمة مفيدة بدلًا من الضجيج.
