→ العودة إلى المدونة
Enterprise AI

إمكانية ملاحظة الاستدلال باستخدام الذكاء الاصطناعي: قياس زمن الاستجابة والإنفاق وانجراف الجودة والحوادث قبل القياس

لا يمكن التحكم في إنتاج الذكاء الاصطناعي من خلال الفواتير السحابية الشهرية أو لقطات الشاشة التجريبية. يوضح إطار عمل المشغل هذا كيفية ربط زمن الوصول الاستدلالي، والإنفاق، وانحراف الجودة، والاستجابة للحوادث قبل توسيع نطاق أعباء عمل الذكاء الاصطناعي.

بقلم Hamza Diaz
21 يونيو 202610 دقيقة قراءة80 مشاهدة

لماذا أصبحت إمكانية ملاحظة استنتاج الذكاء الاصطناعي الآن أكثر أهمية من العروض التوضيحية للوحة المعلومات

يمكن أن يبدو سير عمل الذكاء الاصطناعي التوليدي ممتازًا في العرض التوضيحي ويظل نظام إنتاج سيئًا. يظهر العرض التوضيحي المسار السعيد. تختبر حركة الإنتاج الأجزاء غير المريحة: الاستجابات البطيئة أثناء الارتفاعات، وإعادة المحاولة، وارتفاع الإنفاق، ونتائج الاسترداد التي لا معنى لها، والرفض غير المتوقع، وتغيير مسار النموذج، والحوادث التي لا يستطيع أحد إعادة بناء ما تغير فيها.

هذه هي فجوة الإنتاج. تصل الفواتير السحابية الشهرية بعد حدوث الضرر. لا تُظهر لقطات الشاشة زمن الوصول الإضافي، أو النمو السريع، أو أخطاء الاسترداد، أو السلوك الاحتياطي، أو انحراف الجودة. لا تزال لوحات معلومات التطبيق القياسية مهمة، ولكن استنتاج الذكاء الاصطناعي يحتاج إلى سياق إضافي: إصدار النموذج، والإصدار الفوري، ومسار الاسترداد، والرمز المميز أو حجم الطلب حيث يعرضه النظام الأساسي، وأحداث السلامة، وإشارات التقييم، والمسار الدقيق الذي سلكه الطلب.

تتضمن وثائق AWS الآن إمكانية المراقبة التفصيلية لنقاط نهاية استدلال SageMaker، مع رؤية CloudWatch الأكثر ثراءً لسلوك نقطة النهاية ولوحة معلومات Insights لعمليات نقطة النهاية. الدرس المفيد أكبر من ميزة AWS واحدة. تحتاج الفرق التي تنتقل من مرحلة الطيارين إلى الإنتاج إلى حلقة قياس قبل القياس، وليس لوحة قيادة أجمل بعد الحادث الأول.

عادةً ما تكون لوحة المعلومات هي الجزء الأقل إثارة للاهتمام في إمكانية ملاحظة الذكاء الاصطناعي. والسؤال الصعب هو ما إذا كان الفريق يستطيع اتخاذ قرار بناءً على الأدلة. هل يجب أن يستمر الطرح؟ هل يجب التراجع عن المطالبة؟ هل يجب أن تنتقل حركة المرور إلى نموذج أصغر؟ هل يجب تحديث عملية الاسترجاع قبل إضافة المزيد من المستخدمين؟

هذا هو المكان الذي تتلاءم فيه إمكانية ملاحظة الاستدلال مع قياس عائد استثمار الذكاء الاصطناعي ونماذج تشغيل الذكاء الاصطناعي المحكومة. إنها الطبقة التي تخبر الفريق ما إذا كان سير العمل جاهزًا للمستخدمين الحقيقيين، وليس فقط مثيرًا للإعجاب في غرفة يتم التحكم فيها.

ما تضيفه إمكانية المراقبة التفصيلية لـ AWS SageMaker إلى مراقبة الاستدلال

تعمل إمكانية المراقبة التفصيلية لـ AWS SageMaker على توسيع نطاق العرض التشغيلي لنقاط نهاية الاستدلال من خلال مقاييس CloudWatch وإمكانيات مراقبة نقطة النهاية. توضح وثائق AWS إمكانية ملاحظة CloudWatch التفصيلية لنقاط نهاية SageMaker، بما في ذلك المقاييس الموسعة لأداء نقطة النهاية وسلوك الموارد. وهذا يمنح فرق الإنتاج نقطة بداية أفضل من التحقق مما إذا كانت نقطة النهاية حية أم لا.

تساعد مقاييس CloudWatch في رؤية الاتجاه. تساعد CloudWatch Logs وCloudWatch Logs Insights في التحقيق. تتيح Logs Insights للفرق الاستعلام عن بيانات السجل بشكل تفاعلي، وهو أمر مهم عندما يحتاج المشغلون إلى عزل أنماط الطلب أو الأخطاء أو تغييرات زمن الاستجابة أو توقيت النشر. يمكن أن تظهر لوحة المعلومات أن شيئًا ما قد تم نقله. تساعد السجلات القابلة للاستعلام في شرح الحركة.

بالنسبة للفرق التي تستخدم Amazon Bedrock، يمكن أن يضيف تسجيل استدعاء النموذج بيانات تعريف الطلب والاستجابة والاستدعاء، اعتمادًا على التكوين وسلوك الخدمة. وهذا مهم لأن مجموعات الذكاء الاصطناعي للمؤسسات نادرًا ما تكون أنظمة ذات مسار واحد. قد يستخدم سير عمل واحد Bedrock لمسار نموذج واحد، وSageMaker لنقطة نهاية مخصصة، ومخزن متجه للاسترجاع، ومنطق الأعمال في بوابة التطبيق.

تضيف الاصطلاحات الدلالية OpenTelemetry GenAI طبقة محايدة. وهي تحدد اصطلاحات القياس عن بعد للذكاء الاصطناعي التوليدي حتى تتمكن الفرق من وصف طلبات النماذج والاستجابات والعمليات والسمات دون ربط كل قرار بموفر سحابي واحد. يصبح ذلك مفيدًا عندما يكون لدى الشركة خدمات AWS ونماذج مستضافة ذاتيًا وواجهات برمجة تطبيقات تابعة لجهات خارجية في نفس نموذج التشغيل.الأدوات تكشف الإشارات. إنهم لا يقررون ما يهم. لا تزال الفرق بحاجة إلى اختيار ما يجب وضع علامة عليه، وما يجب الاحتفاظ به، وما هي الحدود التي تتطلب اتخاذ إجراء، وكيف يغير القياس عن بعد قرارات الطرح.

حلقة قابلية الملاحظة لاستدلال Optijara

تعد حلقة Optijara Inference Observability Loop نموذجًا تشغيليًا عمليًا لإنتاج الذكاء الاصطناعي. وتتكون من ست مراحل: الأداة، والتجزئة، والارتباط، والاستجابة، والمراجعة، والتحسين. الهدف ليس جمع كل المقاييس. الهدف هو إنشاء أدلة كافية للمشغلين لشرح الأداء والتكلفة والجودة وسلوك الحادث في ظل حركة المرور الحقيقية.

حورية البحر مخطط انسيابي TD أ[يدخل طلب الذكاء الاصطناعي إلى سير عمل المنتج] --> ب[معرف طلب الأداة، المستأجر، سير العمل، الإصدار الفوري، مسار النموذج] B --> C[جمع المقاييس والسجلات والتتبعات وإشارات التقييم] C --> D [التقسيم حسب عبء العمل، ورحلة المستخدم، ومسار النموذج، وإصدار الإصدار] D --> E[ربط زمن الوصول والإنفاق والجودة والموثوقية والأمان] E --> F{هل هناك حاجة إلى قرار تشغيلي؟}

H --> I[اختبارات تحديثات مراجعة ما بعد الحادث والتنبيهات وبوابات الإطلاق] ز --> ب أنا --> ب

F -->لاG[مراجعة الاتجاهات وتحسين لوحات المعلومات]
F -->نعمH[بدء فرز الحوادث، أو التراجع، أو تغيير المسار، أو المراجعة السريعة]

الخطوة 1: طلبات الأداة قبل قياس حركة المرور

ابدأ قبل أن يحصل سير العمل على حركة مرور ذات معنى. يجب أن يحمل كل طلب معرف طلب دائم، واسم سير العمل، ومسار النموذج، وإصدار المطالبة، وإصدار النموذج حيثما كان ذلك متاحًا، وإصدار مصدر الاسترجاع، وإصدار النشر. وبدون ذلك، قد يعرف الفريق تغير زمن الاستجابة، ولكن ليس ما إذا كان السبب هو التحرير الفوري أو تحديث الاسترداد أو الإصدار أو تغيير التوجيه.

الخطوة 2: تقسيم القياس عن بعد حسب عبء العمل ورحلة المستخدم ومسار النموذج

يعد متوسط زمن الوصول ومتوسط الإنفاق إشارات ضعيفة عندما يختلف استخدام الذكاء الاصطناعي حسب سير العمل. قم بالتقسيم حسب رحلة المستخدم، ونوع المهمة، والمستأجر أو فئة العميل حيثما كان ذلك مناسبًا، ومسار النموذج، ومسار الاسترداد، وإصدار الإصدار. يمكن لملخص الدعم ومساعد مراجعة العقود ووكيل أبحاث المبيعات مشاركة البنية التحتية مع تحمل مخاطر مختلفة تمامًا.

الخطوة 3: ربط إشارات التكلفة وزمن الوصول والجودة

غالبًا ما يكون لمشاكل الاستدلال عدة أسباب. يمكن أن يأتي زمن الاستجابة من الاسترجاع، أو نمو السياق، أو استدعاء النموذج، أو استدعاءات الأدوات، أو الانتظار، أو تباين الموفر، أو إعادة المحاولة، أو التوجيه الاحتياطي. يمكن أن يرتفع الإنفاق بسبب طول المطالبات، أو انخفاض إعادة استخدام ذاكرة التخزين المؤقت، أو زيادة الاعتماد، أو تعامل نموذج عالي القدرة مع العمل الذي يمكن لنموذج أصغر الإجابة عليه. يمكن أن تنخفض الجودة بينما يظل زمن الاستجابة مستقرًا إذا أصبحت مصادر الاسترجاع قديمة أو لم تعد مجموعة التقييم تتطابق مع استعلامات الإنتاج.

الخطوة 4: قم بإدخال الأحداث مرة أخرى في قرارات النشر

تكتمل الحلقة فقط عندما تغير الأحداث السلوك المستقبلي. إذا عثرت المراجعة على معرفات طلب مفقودة، أو إصدارات مطالبة غير واضحة، أو تنبيهات مزعجة، يقوم الفريق بتحديث الأجهزة وبوابات التشغيل. إن الحكم الذي لا يغير القرارات هو عمل ورقي.

json { "framework": "حلقة إمكانية ملاحظة الاستدلال Optijara"، "المراحل": ["الصك"، "المقطع"، "الارتباط"، "الاستجابة"، "المراجعة"، "التحسين"]، "primarySignals": ["زمن الاستجابة"، "الإنفاق"، "الجودة"، "الموثوقية"، "الاستعداد للحادث"]، "decisionOutputs": ["مواصلة الطرح"، "تحسين المطالبة"، "تغيير المسار"، "التراجع"، "إيقاف النطاق مؤقتًا"] }

قائمة القياس عن بعد: ما يجب قياسه قبل حجم الإنتاج

لا يحتاج كل سير عمل إلى كل إشارة في اليوم الأول. يحتاج كل سير عمل إنتاجي إلى أدوات كافية لشرح حالات الفشل وتباين التكلفة.منطقة الإشارةالحد الأدنى للقياس عن بعدلماذا يهممثال على العمل
الكمونإجمالي وقت الاستجابة، ووقت أول رمز مميز حيثما أمكن، ووقت الانتظار، ومدة استدعاء النموذج، وزمن وصول الاسترجاع، وزمن انتقال استدعاء الأداةيوضح ما إذا كان المستخدمون يواجهون تأخيرًا وأين يبدأ التأخيرقم بضبط طول المطالبة، وتغيير المسار، واسترجاع المراجعة، وإضافة التخزين المؤقت
الإنفاق والانتفاعالطلبات حسب النموذج أو الرمز المميز أو حجم الإدخال/الإخراج حيثما كان ذلك متاحًا، واستخدام نقطة النهاية، والسعة الخاملة، ومعدل ضربات ذاكرة التخزين المؤقت، وعلامات التكلفةيربط الإنفاق السحابي بسلوك عبء العملضبط التوجيه، وتحسين سياسة التخزين المؤقت، ونقاط النهاية ذات الحجم الصحيح
الجودة والانجرافدرجات التقييم، أعلام المراجعة البشرية، أنماط الرفض، معدل فشل الاسترجاع، الإصدار الفوري، الإصدار النموذجي، حداثة المعرفةيجد تدهور الإجابة الذي تفتقده مقاييس البنية التحتيةتحديث مصادر الاسترجاع، وإعادة تشغيل التقييمات، ومراجعة المطالبات
الموثوقية والسلامةأخطاء 4xx و5xx، التقييد، إعادة المحاولة، الاستخدام الاحتياطي، أحداث حاجز الحماية، نتائج مرشح المحتوى، خطورة الحادثيوضح ما إذا كانت حالات الفشل محتواة وقابلة للاستردادتصعيد الحادث، وتغيير السياسة الاحتياطية، ومراجعة إعدادات الأمان

وينبغي قياس زمن الوصول عبر المسار، وليس فقط عند حافة التطبيق. إذا كانت الاستجابة بطيئة، يحتاج المشغلون إلى معرفة ما إذا كان التأخير ناتجًا عن الاسترجاع أو استدعاء النموذج أو استدعاءات الأداة أو الانتظار أو إعادة المحاولة. يستحق زمن الاستجابة اهتمامًا خاصًا لأن عددًا صغيرًا من الطلبات البطيئة يمكن أن يصبح حادثًا مرئيًا للمستخدم.

يجب أن يتم وضع علامة على قياس الإنفاق عن بعد حسب عبء العمل ومسار النموذج. لا يمكن للفاتورة الشهرية أن توضح ما إذا كانت حركة التكلفة تأتي من الاستخدام الأعلى، أو المطالبات الأطول، أو المخرجات الأكبر، أو إعادة استخدام ذاكرة التخزين المؤقت الأقل، أو الاختيار السيئ للنموذج. بالنسبة للتخطيط بما يتجاوز القياس عن بعد للاستدلال، يجب أن يغطي إطار التحكم في تكاليف الذكاء الاصطناعي التوجيه وحوكمة الإنفاق على مستوى تشغيل أوسع.

يحتاج انحراف الجودة إلى مسار قياس خاص به. صحة البنية التحتية لا تثبت جودة الإجابة. تتبع مجموعات التقييم، وتسميات المراجعة البشرية، وفئات الفشل المتكررة، وأخطاء الاسترجاع، والتغييرات السريعة، وتغييرات النموذج، ونضارة المصدر. إذا كانت الجودة مهمة لعملية الأعمال، فإنها تحتاج إلى إيقاع مراجعة، وليس حفل إطلاق.

مصفوفة القرار: ما هي مقاييس الاستدلال التي يجب أن تؤدي إلى اتخاذ إجراء؟

يجب أن تؤدي القدرة على الملاحظة إلى العمل. عادة ما يصبح المقياس الذي لا يرتبط بقرار ما ضجيجًا.الإشارة المرصودةالتشخيص المحتملخطوة التحقيق الأولىالإجراء المحتملتحذير
ارتفاع الكمون مع حركة مرور مستقرةالنمو السريع، وتباطؤ الاسترجاع، وتشبع نقطة النهاية، وتباين الموفر، وإعادة المحاولةقارن زمن الاستجابة حسب الإصدار الفوري ومسار الاسترداد ومسار النموذجاقتطاع السياق، وضبط الاسترجاع، وضبط سعة نقطة النهاية، وإضافة احتياطيلا تقم بتحسين المتوسطات فقط. التحقق من الكمون الذيل
ارتفاع الإنفاق مع استقرار حجم الأعمالسياق أطول، إعادة استخدام ذاكرة التخزين المؤقت بشكل أقل، استخدام نموذج عالي القدرة غير ضروري، إعادة محاولة الحلقاتقم بتقسيم الإنفاق حسب سير العمل والنموذج والإصدار الفوري ومعدل دخول ذاكرة التخزين المؤقتتغيير التوجيه وتحسين التخزين المؤقت ومراجعة قوالب المطالبةالطرق الأرخص قد تقلل الجودة
الكمون مستقر ولكن انخفاض الجودةالانجراف الفوري، واسترجاع التي لا معنى لها، وتحديث النموذج، وعدم تطابق التقييمقارن نتائج التقييم حسب النموذج والموجه والإصدار المصدرتحديث مصادر المعرفة، ومراجعة المطالبة، وتحديث الاختباراتتعتمد نقاط الجودة على تصميم التقييم
حوادث متكررة مع سبب جذري غير واضحالعلامات المفقودة، والسجلات الضعيفة، والتنبيهات المزعجة، والآثار غير المكتملةمعرفات طلبات التدقيق والسجلات ولوحات المعلومات وسجلات الحوادثتحسين الأجهزة قبل القياسيجب أن يحترم المزيد من التسجيل ضوابط الخصوصية
ارتفاع معدل الخطأ أو الاختناقحدود السعة، وقيود الموفر، وسياسة إعادة المحاولة السيئة، وارتفاع حركة المرورتحقق من فئة الخطأ والمسار وعدد مرات إعادة المحاولة والنافذة الزمنيةتغيير سياسة إعادة المحاولة وتوجيه حركة المرور ومراجعة الحصصيمكن أن تؤدي عمليات إعادة المحاولة العدوانية إلى تفاقم الحوادث

متى لا تضيف المزيد من إمكانية الملاحظة

لا تقم ببناء مجموعة معقدة من قابلية المراقبة للنماذج الأولية التي لا يوجد بها مسار إنتاج، أو أدوات مساعدة داخلية منخفضة المخاطر حيث تكون المراجعة اليدوية هي عنصر التحكم الرئيسي، أو تجارب حيث يكون القرار التالي هو ببساطة ما إذا كانت حالة الاستخدام تستحق المتابعة. في هذه الحالات، قد تكون السجلات خفيفة الوزن ورؤية التكلفة الأساسية والتقييم اليدوي كافية. يمكنك إضافة إمكانية ملاحظة أعمق عندما يصبح سير العمل مرئيًا للعميل، أو مهمًا من الناحية التشغيلية، أو مكلفًا، أو يصعب تصحيحه، أو متصلاً ببيانات حساسة.

الأخطاء التي ترتكبها الفرق عند مراقبة استنتاجات الذكاء الاصطناعي التوليدي

الخطأ الأول: مراقبة المتوسطات بدلاً من زمن الاستجابة والمقاطع

المتوسطات تخفي الحالات المؤلمة. يمكن أن يُظهر سير العمل متوسط ​​زمن الوصول المقبول بينما يكون أداء مسار النموذج أو الإصدار الموجه أو رحلة المستخدم سيئًا. قم بمراجعة النسب المئوية والقطاعات، خاصة بالنسبة للتدفقات المرئية للعملاء.

الخطأ الثاني: فصل لوحات معلومات التكلفة عن لوحات معلومات الجودة

إن التحكم في التكاليف بدون سياق الجودة يخلق قرارات سيئة. لا يعد مسار النموذج الأرخص تحسينًا إذا زاد من حالات الرفض أو الإجابات الضعيفة أو إعادة العمل اليدوي. قم بمراجعة الإنفاق ووقت الاستجابة والجودة في نفس محادثة التشغيل.

الخطأ 3: تسجيل كل شيء بدون خطة الخصوصية والاحتفاظ

يمكن أن تساعد سجلات المطالبة والاستجابة في تصحيح الأخطاء والتقييم ومراجعة الأحداث. ويمكن أن تحتوي أيضًا على بيانات عمل حساسة. تحتاج الفرق إلى التنقيح والتحكم في الوصول ونوافذ الاحتفاظ ومسح الملكية قبل تمكين السجلات التفصيلية.

الخطأ الرابع: التعامل مع التقييم كبوابة إطلاق لمرة واحدة

تتغير أنظمة الذكاء الاصطناعي التوليدية مع تغير المطالبات والنماذج والسياسات ومصادر الاسترجاع وتغير سلوك المستخدم. يجب أن يتم إجراء التقييم في كثير من الأحيان بما يكفي لرصد الانجراف والانحدارات وأنماط الفشل الجديدة.

الخطأ الخامس: التنبيه بشأن الضوضاء بدلًا من قرارات المشغليجب أن يتم تعيين التنبيهات لإجراءات مثل التراجع، أو تغيير المسار، أو مراجعة السعة، أو إبطال ذاكرة التخزين المؤقت، أو المراجعة السريعة، أو تحديث الاسترجاع، أو تصعيد الحادث. إذا كان التنبيه يؤدي فقط إلى القلق، فأعد كتابته أو قم بإزالته.

خطة قياس الاستجابة للحوادث لأنظمة الذكاء الاصطناعي للإنتاج

تحتاج حوادث إنتاج الذكاء الاصطناعي إلى أدلة، وليس إلقاء اللوم. يجب أن تحدد خطة القياس ما يتم التقاطه قبل وأثناء وبعد وقوع الحادث.

حورية البحر مخطط تسلسل المشارك U كمستخدم المشارك G كبوابة AI المشارك R كطبقة استرجاع المشارك M كنقطة نهاية نموذجية المشارك O كمكدس قابلية الملاحظة المشارك T كفريق الفرز U->>G: طلب مع سياق سير العمل G->>O: معرف طلب السجل، الإصدار الفوري، مسار النموذج G->>R: استرداد السياق R->>O: زمن وصول استرجاع السجل والإصدار المصدر G->>M: استدعاء النموذج M->>O: ينبعث إشارات الكمون والخطأ والاستخدام O->>T: تنبيه عند الحد القابل للتنفيذ T->>G: التراجع أو إعادة التوجيه أو التخفيض بأمان T->>O: سجل الجدول الزمني وتحديثات ما بعد الحادث

المرحلةتركيز القياسدليل القبضمخرجات القرار
قبل الحادثةالملكية، الشدة، قواعد التراجع، التدهور المقبولمالك الخدمة، مالك النموذج، المالك الفوري، مسار التصعيد، مستويات الخطورةمسح أدوار وبوابات الحادثة
أثناء الحادثالجدول الزمني وأدلة السبب الجذريمعرفات الطلب، إصدارات النماذج، الإصدارات السريعة، إصدارات الاسترجاع، السجلات، الآثار، لقطات المقاييسالفرز أو التراجع أو تغيير المسار أو اتصال المستخدم
بعد الحادثةالتعلم والوقايةمراجعة ما بعد الحادث، فجوات لوحة المعلومات، اختبارات الانحدار، تغييرات التنبيه، تحديثات قواعد الطرحنشر أكثر أمانًا وأدوات أفضل

قد تكون بيانات الحادث غير كاملة. يعرض مقدمو الخدمة القياس عن بعد المختلف. قواعد الخصوصية قد تحد من تفاصيل السجل. ولهذا السبب يجب على الفرق أن تقرر مسبقًا ما يحتاجون إليه لتشخيص الحوادث وما لا يُسمح لهم بتخزينه.

##محاذير ومقايضات وحدود التنفيذ

تعرض SageMaker وBedrock والنماذج ذاتية الاستضافة وواجهات برمجة التطبيقات التابعة لجهات خارجية مقاييس وسجلات وعناصر تحكم وأوضاع فشل مختلفة. يجب أن يفصل تصميم قابلية المراقبة المحمولة الإشارات التي يحتاجها الفريق عن حقول النظام الأساسي المتاحة اليوم.

قيود الخصوصية والأمان ليست اختيارية. إذا كانت المطالبات أو المخرجات قد تحتوي على بيانات عمل حساسة، فإن تسجيل الاستدعاء يحتاج إلى تنقيح، والوصول إلى أقل الامتيازات، وحدود الاحتفاظ، والمراجعة من قبل أصحاب المصلحة المعنيين بالأمان.

القدرة على الملاحظة لها تكلفتها الخاصة. تستهلك السجلات سعة التخزين، وتتطلب لوحات المعلومات الصيانة، وتحتاج التنبيهات إلى الضبط، ويحتاج الموظفون إلى الوقت لمراجعة الإشارات. نقطة البداية الصحيحة هي أصغر مجموعة قياس تدعم قرارات الإنتاج، يليها التوسع بناءً على الحوادث والاستخدام والمخاطر.

لا يتم حل مشكلة انحراف الجودة عن طريق القياس عن بعد وحده. تحتاج الفرق إلى مجموعات بيانات التقييم، والمراجعة البشرية عند الاقتضاء، ومعايير قبول واضحة، وطريقة لمقارنة التغييرات السريعة والنموذجية مع مرور الوقت.

## كيف تبدأ: طرح إمكانية ملاحظة الاستدلال لمدة 30 يومًاالاسبوعالتركيزعمل عمليمعيار الخروج
الأسبوع الأولخريطة سير العمل وتحديد مستويات الخدمةحدد مسارات عمل الذكاء الاصطناعي المهمة، ورحلات المستخدم، والمسارات النموذجية، ومصادر البيانات، والمالكين، وأنماط التدهور المقبولةكل مرشح إنتاج لديه مالك، ومستوى المخاطر، وتوقعات الخدمة
الأسبوع الثانيأداة المسار الحرجأضف معرفات الطلب، والسجلات المنظمة، ومقاييس CloudWatch حيثما أمكن، والإصدار السريع والنموذجي، وإصدار الاسترجاع، وعلامات التكلفةيمكن للمشغلين تتبع الطلب عبر طبقات التطبيق والاسترجاع والنموذج
الأسبوع 3بناء لوحات المعلومات وطقوس المراجعةقم بإنشاء طرق عرض لوقت الاستجابة والأخطاء والإنفاق ومؤشرات الجودة وأحداث السلامة وحالة الحادثمراجعة الهندسة والمنتج والعمليات والحوكمة بنفس الأدلة
الأسبوع الرابعتشغيل تدريبات الفشل وصقل البواباتمحاكاة انقطاع الاسترجاع، وارتفاع زمن الوصول، وشذوذ التكلفة، وتدهور الجودة، والاختناق، وفجوات التسجيليتم تحسين دفاتر التشغيل والتنبيهات وبوابات التشغيل بناءً على نتائج الاختبار

لا ينبغي أن يهدف الشهر الأول إلى توفير منصة مثالية للمراقبة. يجب أن يثبت أن الفريق يمكنه شرح سلوك الإنتاج الرئيسي واتخاذ قرارات واضحة. هل يمكن للمشغلين تحديد سبب تغير زمن الاستجابة؟ هل يمكن للتمويل والهندسة ربط حركة الإنفاق بسلوك عبء العمل؟ هل يمكن لفرق المنتج والحوكمة معرفة ما إذا كانت جودة الإجابة مستقرة؟ هل يستطيع فريق الحادث إعادة بناء ما حدث دون التخمين؟

إذا كانت هذه الإجابات غير واضحة، فيجب تأجيل القياس. إذا كانت حلقة القياس قوية بما فيه الكفاية، فيمكن للفريق التوسع باستخدام أدلة أفضل، وسجلات تشغيل أكثر وضوحًا، ومفاجآت أقل.

النقاط الرئيسية

  • 1يحتاج الذكاء الاصطناعي للإنتاج إلى إمكانية ملاحظة الاستدلال قبل التوسع، وليس فقط الفواتير السحابية الشهرية أو لقطات الشاشة التجريبية.
  • 2توضح إمكانية المراقبة التفصيلية لـ SageMaker وتحليل CloudWatch كيف يتجه مقدمو الخدمات السحابية نحو رؤية أكثر ثراءً لعمليات الاستدلال.
  • 3تربط حلقة Optijara Inference Observability Loop بين الأجهزة والتجزئة والارتباط والاستجابة والمراجعة والتحسين.
  • 4يجب مراجعة زمن الوصول والإنفاق وانجراف الجودة والموثوقية والاستعداد للحوادث معًا، وليس في لوحات معلومات منفصلة.
  • 5يجب موازنة التسجيل التفصيلي مع الخصوصية والاحتفاظ والتحكم في الوصول والتكلفة التشغيلية.
  • 6يجب أن تشير التنبيهات إلى قرارات محددة مثل التراجع أو تغيير المسار أو المراجعة السريعة أو إبطال ذاكرة التخزين المؤقت أو تصعيد الحادث.

الخلاصة

لا تتعلق إمكانية ملاحظة الاستدلال باستخدام الذكاء الاصطناعي بجمع كل المقاييس التي تكشفها المنصة. يتعلق الأمر ببناء حلقة تشغيل تساعد الفرق على فهم زمن الوصول والإنفاق والجودة والحوادث قبل أن تحول حركة الإنتاج الإشارات الضعيفة إلى مفاجآت باهظة الثمن. ابدأ بالمسار الحرج، وقم بتوصيل الإشارات بالقرارات، وقم بالتوسع فقط عندما تبرر المخاطر أو الحجم العمل الإضافي.

الأسئلة الشائعة

ما هي إمكانية ملاحظة استنتاج الذكاء الاصطناعي؟

إمكانية ملاحظة استنتاج الذكاء الاصطناعي هي ممارسة قياس والتحقيق في سلوك نموذج الذكاء الاصطناعي للإنتاج عبر الكمون والأخطاء والتكلفة والجودة وأنماط الاستخدام وأحداث السلامة وإشارات الاستجابة للحوادث.

كيف تختلف إمكانية ملاحظة استنتاج الذكاء الاصطناعي عن مراقبة التطبيقات التقليدية؟

تركز المراقبة التقليدية على البنية التحتية وصحة التطبيقات. تتتبع إمكانية ملاحظة الاستدلال بالذكاء الاصطناعي أيضًا مسارات النماذج والإصدارات السريعة والرمز المميز أو حجم الطلب حيثما كان ذلك متاحًا، وسلوك الاسترجاع، وجودة المخرجات، ومؤشرات الانجراف، والسلوك الاحتياطي، وضوابط السلامة.

ما هي المقاييس التي يجب على الفرق مراقبتها من أجل استنتاج الذكاء الاصطناعي التوليدي؟

تتضمن المقاييس الأساسية زمن الاستجابة الإجمالي، والوقت لأول رمز مميز حيثما كان ذلك مناسبًا، ومدة استدعاء النموذج، وزمن وصول الاسترداد، ومعدل الخطأ، والتقييد، وعدد مرات إعادة المحاولة، واستخدام النموذج، وتخصيص التكلفة، ومعدل ضربات ذاكرة التخزين المؤقت، ونتائج تقييم الجودة، وخطورة الحادث.

كيف يمكن لإمكانية المراقبة التفصيلية لـ AWS SageMaker أن تساعد فرق إنتاج الذكاء الاصطناعي؟

تضيف إمكانية المراقبة التفصيلية لـ SageMaker رؤية CloudWatch أكثر ثراءً لنقاط نهاية الاستدلال، مما يساعد الفرق على مراقبة سلوك نقطة النهاية والتحقيق في المشكلات من خلال المقاييس ولوحات المعلومات وتحليل السجل.

هل يجب على الفرق تسجيل كل مطالبة واستجابة للذكاء الاصطناعي؟

ليس تلقائيا. يمكن أن يدعم تسجيل المطالبات والاستجابة تصحيح الأخطاء والتقييم، ولكن يجب على الفرق مراعاة التزامات الخصوصية والاحتفاظ والتحكم في الوصول والتنقيح والأمان قبل تمكين السجلات التفصيلية.

المصادر

شارك هذا المقال

Hamza Diaz

بقلم

Hamza Diaz

حمزة دياز هو مؤسس Optijara، حيث يبني وكلاء ذكاء اصطناعي عمليين، وأنظمة أتمتة، وسير عمل Copilot للشركات الخدمية. يكتب عن تشغيل الذكاء الاصطناعي، واستراتيجية الوكلاء، والتطبيق الواقعي للفرق التي تريد أنظمة مفيدة بدلًا من الضجيج.