جاهزية الذكاء الاصطناعي الطبي: قائمة مرجعية لحوكمة وتقييم مساعد الطيار السريري
تُظهِر أبحاث Google AMIE للرعاية المزمنة وتحديثات الذكاء الصحي في OpenAI مدى سرعة انتقال الذكاء الاصطناعي الطبي من الإجابة على الأسئلة الضيقة إلى التفكير الطولي. تحتاج فرق المؤسسة إلى حلقة استعداد تختبر الأدلة والرقابة البشرية والخصوصية ومراقبة السلامة ومقاييس التنفيذ قبل أن يصل الذكاء الاصطناعي السريري إلى المرضى أو الأطباء.
لماذا تغير جاهزية الذكاء الاصطناعي الطبي بعد تحديثات AMIE والذكاء الصحي
لقد تجاوز الذكاء الاصطناعي الطبي مرحلة أسئلة الامتحان. ويكمن العمل الأصعب الآن في المحادثات الطويلة، وتخطيط الرعاية، واستخدام المبادئ التوجيهية، والتسليم السريري. تصف Google Research AMIE بأنه نظام ذكاء اصطناعي بحثي للاستدلال التشخيصي والمحادثات الطبية، ثم توسع هذا العمل نحو إدارة الأمراض الطولية عبر الاستشارات متعددة الزيارات والتحقيقات والعلاجات والوصفات الطبية وتخطيط المتابعة. يشير كل من HealthBench وLifeSciBench من OpenAI إلى نفس الاتجاه: يتم الحكم على الذكاء الاصطناعي الصحي بشكل أقل من خلال الإجابات بطلاقة وأكثر من خلال ما إذا كان من الممكن اختباره وتقييده ومراقبته.
هذا يغير مسألة العمل. لا، "هل يجب أن نستخدم الذكاء الاصطناعي السريري؟" والنسخة الأفضل هي "ما هو سير العمل السريري المجاور الجاهز، وما هي الأدلة التي تدعمه، وأين يجب على الإنسان أن يقرر، وكيف سيتم اكتشاف الفشل قبل أن يصل إلى المرضى على نطاق واسع؟"
وجهة نظر صريحة: يجب أن يبدأ معظم طياري الذكاء الاصطناعي في مجال الرعاية الصحية بشكل أصغر مما يقترحه العرض التوضيحي. قد يستخدم مساعد الطيار التوثيق ومساعد الفرز الذي يتعامل مع المريض إمكانات نموذجية مماثلة، ولكن يقوم أحدهما بصياغة محترف مرخص بينما يمكن للآخر التأثير على ما إذا كان المريض يسعى للحصول على الرعاية. تلك عوالم مختلفة. إن حلقة جاهزية الذكاء الاصطناعي في Optijara Clinical مخصصة للفرق التي تحتاج إلى أكثر من مجرد بطاقة أداء البائع وإلى قدر أقل من التجريد مقارنة بسياسة الأخلاقيات.
حلقة الاستعداد للذكاء الاصطناعي في Optijara Clinical
تتكون الحلقة من ست مراحل: النطاق والدليل والحدود والتقييم والتشغيل والتحسين. وهي دائرية حسب التصميم. المبادئ التوجيهية تتغير. تغييرات سلوك النموذج. تنجرف المطالبات ومصادر الاسترجاع والمستخدمون ومجموعات المرضى. موافقة لمرة واحدة ليست كافية.
حورية البحر مخطط انسيابي TD أ[نطاق سير العمل السريري] --> ب[تصنيف طبقة الأدلة] B --> C [تعيين حدود الإنسان داخل الحلقة] C --> D [تقييم التصميم واختبارات الفريق الأحمر] D --> E [العمل مع المراقبة والاستجابة للحوادث] E --> F [التحسين من خلال نتائج التدقيق وتعليقات المستخدمين] ف --> ب D --> G{تم استيفاء حد الأمان؟}
| ز --> | لا | H[لا تنشر أو تقيد الاستخدام] |
|---|---|---|
| ز --> | نعم | ه |
تمنع الحلقة الفرق من القفز من العرض التجريبي القوي إلى الإصدار التجريبي المباشر. كما أنه يفصل بين الوعد البحثي والاستعداد للإنتاج. تعمل أبحاث الرعاية الطولية التي تجريها AMIE والتقييمات على طراز HealthBench على تحسين المحادثة، ولكنها لا تحل محل التحقق المحلي في سير عمل محدد.
1. النطاق: حدد سير العمل قبل تحديد النموذج
يبدأ جاهزية الذكاء الاصطناعي السريري بتعريف سير العمل، وليس باختيار النموذج. يمكن أن يؤدي النموذج أداءً جيدًا في مهام الاستدلال الطبي ولا يزال غير مناسب لمستشفى أو شركة تأمين أو عيادة أو منصة صحية إذا كان المستخدم والبيانات والمهمة ومسار التصعيد غامضين.
| ابدأ بخمسة أسئلة تحديد النطاق: | سؤال | لماذا يهم | حدود المثال |
|---|---|---|---|
| من هو المستخدم الأساسي؟ | الأنظمة التي تواجه الأطباء، وتواجه الموظفين، وتواجه المرضى تحمل مخاطر مختلفة | تستخدم الممرضة مسودة ملخص الفرز، ولا يتلقى المريض قرار الاستعجال النهائي من الذكاء الاصطناعي وحده | |
| ما القرار الذي يمكن أن يؤثر عليه الذكاء الاصطناعي؟ | يتطلب التأثير الأعلى للقرار أدلة ورقابة أقوى | يمكن للذكاء الاصطناعي تلخيص الأعراض، لكن لا يمكنه التشخيص بشكل مستقل | |
| ما هي البيانات التي يستخدمها؟ | تعتمد الخصوصية والموافقة وتقليل البيانات على أنظمة المصدر | ملاحظات السجلات الصحية الإلكترونية أو دردشة المرضى أو بيانات الجهاز أو الإرشادات أو مواد التعليم العام | |
| ما هو وضع الفشل؟ | تعتمد الاستعداد على مدى خطورة الخطأ وما إذا كان بإمكان الأشخاص اكتشافه بسرعة | يختلف عرض العلم الأحمر المفقود عن الصياغة المحرجة | |
| ما هو مسار التصعيد؟ | المراجعة البشرية يجب أن تكون موجودة في سير العمل، وليس فقط في السياسة | الحالات العاجلة توجه إلى فريق طبي مؤهل بموجب بروتوكول موثق |
يجب أن تنتج هذه الخطوة خريطة سير العمل، وجرد البيانات، وتصنيف المخاطر، ورحلة المستخدم. وبدونها، تركز عمليات الشراء على القدرات بينما تظل المسؤولية السريرية غامضة.
2. الدليل: مطابقة المطالبات مع مستويات الدليل
تؤكد إرشادات منظمة الصحة العالمية بشأن أخلاقيات الذكاء الاصطناعي وإدارته في مجال الصحة على السلامة والشفافية والمساءلة والشمول وحماية الاستقلالية. يطلب إطار إدارة مخاطر الذكاء الاصطناعي التابع لـ NIST من المؤسسات التحكم في مخاطر الذكاء الاصطناعي وتخطيطها وقياسها وإدارتها. تصبح هذه المبادئ عملية فقط عندما تكون ادعاءات المنتج مرتبطة بالأدلة.
| طبقة الأدلة | مناسب لـ | لا يكفي ل |
|---|---|---|
| وثائق البائع والبطاقات النموذجية | الفحص المبكر، مراجعة البنية، مراجعة الأمان | قرارات النشر السريري |
| النتائج المعيارية العامة | مقارنة القدرات والقيود الواسعة | التحقق من صحة السكان المرضى المحليين |
| التقييم المحلي بأثر رجعي | اختبار الحالات التاريخية أو الملاحظات أو النصوص أو أنماط الإحالة | العمل المستقل في الوقت الحقيقي |
| الطيار الصامت | قياس السلوك في ظروف شبيهة بالإنتاج دون التأثير على الرعاية | الإفراج عن المريض |
| طيار حي بإشراف | الاستخدام الخاضع للمراقبة من خلال المراجعة البشرية وتسجيل الحوادث | طرح واسع النطاق دون مراقبة |
| مراقبة ما بعد النشر | فحوصات مستمرة للسلامة والانجراف والإنصاف والأداء | استبدال لتقييم ما قبل النشر |
يشير عمل Google AMIE إلى الحوار والتفكير الإداري والأسس التوجيهية والرعاية متعددة الزيارات. يجب على فرق المؤسسة ترجمة ذلك إلى متطلبات التقييم المحلية. إذا طالب البائع بدعم الرعاية المزمنة، وأسس إرشادات الاختبار، وسلامة الدواء، وتوصيات المتابعة، وعدم اليقين، وتفضيلات المريض، والتصعيد. إذا كانت إحدى الأدوات تطالب بدعم الفرز، فاختبر الكشف عن العلامات الحمراء والطمأنينة الزائفة ومعايرة الاستعجال وجودة التسليم.
3. الحدود: تحديد ما يجب أن يوافق عليه البشر
يبدو "الإنسان في الحلقة" مطمئنًا، لكنه ضعيف جدًا بالنسبة للذكاء الاصطناعي السريري. لن يقوم الطبيب الذي يتلقى خمسين اقتراحًا للذكاء الاصطناعي في كل نوبة بمراجعة كل منها بنفس القدر من الاهتمام. لا يزال بإمكان المساعد الذي يواجه المريض مع إخلاء المسؤولية تشكيل السلوك قبل التصعيد.
| استخدم الحدود الواضحة والقابلة للاختبار والمطبقة في المنتج: | دور الذكاء الاصطناعي | الحدود المقبولة | حدود المخاطر العالية |
|---|---|---|---|
| مساعد اداري | مسودات ملخصات التعيين أو نماذج القبول لمراجعة الموظفين | يرسل تعليمات الرعاية دون مراجعة | |
| مساعد الطيار السريري | يقترح اعتبارات تفاضلية أو مسودات وثائق للمهنيين المرخصين | يقدم التشخيص أو العلاج كنهائي | |
| مساعد الفرز | يجمع الأعراض والأعلام وأنماط العلم الأحمر للمراجعة البشرية | يعين مستوى الاستعجال النهائي دون إشراف سريري | |
| مساعد تعليم المريض | يشرح المواد المعتمدة مع مراجع المصدر ومطالبات التصعيد | يعطي تغييرات علاجية شخصية | |
| مساعد الملاحة الرعاية | الطرق إلى الخدمات الموجودة بناءً على القواعد والمحتوى الذي تم التحقق منه | يوصي بتأخير الرعاية أو تجنبها |
وتحتاج الحدود أيضًا إلى المساءلة. إذا قام الذكاء الاصطناعي بصياغة مذكرة، فمن يوقعها؟ إذا كانت علامة علامة حمراء، فمن الذي يتلقى التنبيه؟ وإذا لم يتصاعد فمن يراجع الحادث؟ إذا استشهد بمبادئ توجيهية، فمن الذي يتحقق من أن المبادئ التوجيهية حديثة؟
والسياسة وحدها لن تحقق هذا. يحتاج المنتج إلى أذونات ومسارات التصعيد وسجلات التدقيق وعناصر التحكم في الأدوار وقيود المحتوى وسلوك التجاوز.
تصميم تقييم لمساعدي الطيارين السريريين، والفرز، والذكاء الاصطناعي الذي يواجه المريض
تختبر خطة التقييم الجيدة الصحة السريرية وسلوك السلامة والخصوصية والعدالة وسهولة الاستخدام والمرونة التشغيلية. يمكن للمعايير أن تبلغ الخطة. لا يمكنهم استبداله. يُظهر عمل تقييم الذكاء الصحي الخاص بـ OpenAI وتقييمات المجال على نمط LifeSciBench الاتجاه، لكن النشر المحلي لا يزال يحتاج إلى اختبار خاص بسير العمل.
| بُعد التقييم | ما الذي يجب اختباره | مثال متري أو قطعة أثرية |
|---|---|---|
| الصحة السريرية | التوافق مع المبادئ التوجيهية المقبولة ومراجعة الخبراء | نموذج تقييم الصحة المعتمد من قبل الأطباء السريريين، تدقيق الاقتباس التوجيهي |
| سلوك السلامة | أعلام حمراء، وعدم اليقين، وموانع الاستعمال، والتصعيد | مجموعة حالة الفريق الأحمر، أو تمرير التصعيد أو سجل الفشل |
| مكافحة الهلوسة | ادعاءات غير مدعومة، مراجع ملفقة، حقائق مريضة مختلقة | التدقيق المؤرض للمصدر، معدل البيان غير مدعوم |
| تناسب سير العمل | عبء الوقت، وسهولة الاستخدام، وجودة التسليم، والتعب التنبيه | مقابلات المستخدمين، مراجعة إكمال المهام، تجاوز الأسباب |
| الخصوصية والأمان | تصغير البيانات، التحكم بالوصول، الاحتفاظ، التعامل مع البائعين | DPIA أو تقييم المخاطر، استبيان الأمان، خريطة تدفق البيانات |
| الأسهم والموثوقية | الأداء عبر اللغة والعمر ومعرفة القراءة والكتابة والاعتلال المشترك وتباين جودة البيانات | مجموعة التقييم الطبقي ومراجعة التحيز |
| المرونة التشغيلية | الكمون، سلوك التوقف، المعالجة الاحتياطية، المراقبة | SLOs، قواعد اللعبة التي تمارسها الحوادث، نتائج الاختبار الاحتياطي |
يجب أن تتضمن مجموعة التقييم الحالات الروتينية، وحالات الحافة، والمطالبات المعارضة، والأعراض الغامضة، والمعلومات غير الكاملة، وبيانات المريض المتضاربة، والحالات التي يكون فيها التصعيد أو الرفض هو الإجابة الصحيحة. تحتاج الأدوات التي تواجه المريض إلى التدقيق من أجل الطمأنينة الزائفة. يحتاج مساعدو الطيارون السريريون إلى اختبار التحيز الآلي.
قائمة مراجعة الحد الأدنى للتنفيذ
| قبل أن ينتقل طيار الذكاء الاصطناعي السريري من التصميم إلى الاستخدام المباشر، يجب طلب هذه العناصر: | عنصر قائمة التحقق | الإخراج المطلوب |
|---|---|---|
| نطاق سير العمل | خريطة عملية مكتوبة وحدود حالة الاستخدام | |
| مستوى المخاطر | تصنيف المخاطر الموثق مع الأساس المنطقي | |
| مراجعة الأدلة | قائمة المصادر، وملخص المعايير، وأدلة البائع، وخطة التحقق المحلية | |
| الرقابة البشرية | دور المراجع المحدد وخطوة الموافقة وقاعدة التصعيد وعملية التجاوز | |
| حوكمة البيانات | مصادر البيانات، وأساس الموافقة، وسياسة الاحتفاظ، وضوابط الوصول، والتعامل مع البائعين | |
| بروتوكول التقييم | تصميم مجموعة الاختبار، وقواعد التقييم، وحدود الأمان، ومؤهلات المراجعين | |
| خطة الرصد | إشارات الجودة، وأحداث السلامة، وفحوصات الانجراف، وزمن الوصول، ووقت التشغيل، وعملية الحادث | |
| بوابة الطرح | معايير الطيار والتوسيع والإيقاف المؤقت والتراجع والتقاعد | |
| تدريب المستخدم | تعليمات بشأن القيود والتصعيد والتدقيق وإعداد التقارير | |
| ملف المشتريات | إجابات الموردين والضوابط التعاقدية وحقوق التدقيق وشروط إشعار التحديث |
الشراء جزء من تصميم السلامة. يمكن لممارسات تحديث المورد والسجلات واستخدام البيانات والمقاولين من الباطن وإصدار النماذج والإخطار بالحادث تغيير ما إذا كان النظام سيظل مقبولاً بعد الإطلاق.
أين لا يمكن استخدام الذكاء الاصطناعي السريري حتى الآن
تعتبر بعض مسارات العمل مرشحة ضعيفة للنشر المبكر، حتى عندما يبدو العرض التوضيحي قويًا. كن حذرًا عندما يتخذ الذكاء الاصطناعي قرارات سريرية عالية التأثير من تلقاء نفسه، أو يكون التصعيد ضعيفًا، أو لا يستطيع المريض تحدي النتيجة، أو سيكون من الصعب اكتشاف الفشل بسرعة.
تشمل الحدود عالية المخاطر التشخيص المستقل، وتغييرات الأدوية، والفرز في حالات الطوارئ دون مراجعة بشرية، والتعامل مع أزمات الصحة العقلية دون تصعيد موثوق، ودعم قرارات الأطفال دون التحقق المتخصص، وإدارة الاعتلال المشترك المعقد عندما تتعارض المبادئ التوجيهية أو سياق المريض غير مكتمل.
وهذا لا يجعل الذكاء الاصطناعي عديم الفائدة. قد تتضمن نقاط البداية منخفضة المخاطر تلخيص المدخول، ومسودات التوثيق، وتثقيف المريض المعتمد، والتنقل في الرعاية، واسترجاع الأدلة التي تواجه الطبيب. الانضباط هو مطابقة حالة الاستخدام للأدلة والرقابة.
ما هي الفرق التي تخطئ
أولاً، يقومون بتقييم الذكاء الاصطناعي الطبي مثل برنامج الدردشة الآلي العام. الطلاقة ليست السلامة. من الممكن أن تكون الإجابة الواضحة خاطئة سريريًا، أو تفتقد السياق، أو واثقة جدًا.
ثانياً، يعتمدون بشدة على المعايير العامة. تساعد التقييمات العامة في الفحص، ولكن سير العمل المحلي له مجتمعه الخاص، وأسلوب التوثيق، ومسارات التصعيد، والمعايير السريرية.
ثالثًا، يكتبون لغة إشرافية غامضة. إذا لم يتم تعيين أي شخص لمراجعة مخرجات الذكاء الاصطناعي والموافقة عليها وتصعيدها وتدقيقها، فإن حدود الرقابة تكون خيالية.
رابعاً، يتجاهلون الانجراف بعد النشر. يمكن أن تتغير النماذج والمطالبات ومصادر الاسترجاع والإرشادات وسلوك المستخدم ومزيج المرضى. النظام الذي بدا مقبولاً أثناء التجربة يمكن أن يصبح محفوفًا بالمخاطر لاحقًا.
خامسًا، إنهم يخفون عدم اليقين. يجب أن ينقل الذكاء الاصطناعي السريري الحدود بوضوح، خاصة عندما تكون المعلومات غير كاملة أو قد تكون هناك أعراض عاجلة.
سادسا، يتعاملون مع الخصوصية باعتبارها خانة اختيار متأخرة. يمكن أن يتضمن سير العمل الطبي بيانات حساسة ومعالجات خارجية وسجلات وتحليلات وإعدادات الاحتفاظ. كل واحد يحتاج إلى مالك.
المحاذير والقيود
إن جاهزية الذكاء الاصطناعي الطبي لا تضمن الفائدة السريرية. إنه يخلق طريقة أكثر أمانًا لتحديد ما إذا كان سيتم اختبار النظام وكيفية اختباره. لا تزال الفرق بحاجة إلى مراعاة التكلفة، وعبء عمل الطبيب، وثقة المريض، وتباين مقدم الخدمة، وواجبات الخصوصية، وذاكرة التخزين المؤقت التي لا معنى لها، وجودة الاسترجاع، والحالات التي يكون فيها القرار الصحيح هو عدم النشر.يمكن لأنظمة البحث مثل AMIE أن تحدد الاتجاه، لكن سير عمل الإنتاج يتطلب التحقق المحلي. تعمل التقييمات على طراز HealthBench على تحسين نظام الاختبار، ولكنها لا تثبت أن نظامًا معينًا آمن في بيئة سريرية واحدة. يختلف التصنيف التنظيمي حسب الاختصاص القضائي والاستخدام المقصود وسلوك المنتج، لذا يجب أن تدخل الحوكمة القانونية والسريرية مبكرًا.
سهولة الاستخدام يمكن أن تكسر حالة السلامة. إذا أضاف مساعد الطيار نقرات، أو أصدر ملاحظات منتفخة، أو أنشأ تنبيهات يتعلم الأطباء تجاهلها، فقد تتدهور السلامة حتى عندما يبدو تسجيل الحالة جيدًا. شاهد العمل، وليس إخراج النموذج فقط.
خطة قياس للطرح
يجب أن تجمع مقاييس الذكاء الاصطناعي السريرية بين السلامة والجودة والعمليات والاعتماد والحوكمة. تجنب مطالبات عائد الاستثمار الضيقة ما لم تدعمها الأدلة المقاسة. الهدف الأول هو التعلم الخاضع للرقابة.
| فئة متري | إشارات المثال | إيقاع المراجعة |
|---|---|---|
| السلامة | أخطاء التصعيد، الاقتراحات غير الآمنة، التعامل مع موانع الاستعمال، تقارير الحوادث | يوميًا أثناء التجربة، ثم أسبوعيًا أو شهريًا حسب المخاطرة |
| الجودة | درجة مراجعة الخبراء، توافق المبادئ التوجيهية، المطالبات غير المدعومة، معدل التصحيح | أسبوعيًا أثناء الإصدار التجريبي |
| سير العمل | الوقت لإكمال المهمة، وعبء المستخدم، وأسباب التجاوز، واكتمال التسليم | اسبوعيا وبعد التغيرات الكبرى |
| تجربة المريض | الوضوح، الفهم، موضوعات الشكوى، فهم التصعيد | أسبوعيًا خلال الطيارين الذين يواجهون المريض |
| الأسهم | الأداء الطبقي حسب العوامل السكانية واللغوية ذات الصلة حيثما يكون ذلك قانونيًا ومناسبًا | البوابة التجريبية والتدقيق الدوري |
| العمليات | زمن الوصول، وقت التوقف عن العمل، الاستخدام الاحتياطي، تغطية المراقبة، اكتمال سجل التدقيق | المراقبة المستمرة |
| الحكم | تغييرات إصدار النموذج، تحديثات البائع، استثناءات السياسة، المخاطر التي لم يتم حلها | تغيير لوحة المراجعة |
لا يزال وقت التشغيل ووقت الاستجابة مهمين داخل سير عمل الرعاية. التعامل مع إمكانية الملاحظة كجزء من ملف السلامة السريرية، وليس فقط لوحة القيادة الهندسية.
أسئلة المشتريات لموردي الذكاء الاصطناعي الطبي
اطرح أسئلة تكشف الواقع التشغيلي:
- ما هو الاستخدام المقصود بالضبط المدعوم، وما هي الاستخدامات المحظورة؟
- ما هي الأدلة التي تدعم سير العمل هذا، وكيف تمت مراجعته؟
- هل يوفر النظام الاستشهادات أو أسس المصدر، وكيف يتم تحديث المصادر؟
- كيف يتم تغيير إصدارات النماذج والمطالبات وفهارس الاسترجاع وسياسات السلامة؟
- ما هي السجلات التي يتم تخزينها، وإلى متى، ومن يمكنه الوصول إليها؟
- هل يتم استخدام بيانات العملاء للتدريب أو التقييم أو تحسين المنتج؟
- ماذا يحدث أثناء فترة التوقف عن العمل، أو الكمون العالي، أو عدم اليقين؟
- كيف يتم الإبلاغ عن حوادث السلامة والتحقيق فيها؟
- هل يستطيع العميل تصدير سجلات التدقيق وبيانات التقييم؟
- ما هي الضوابط الموجودة لنبرة التعامل مع المريض، وإخلاء المسؤولية، والتصعيد، والرفض؟
إذا لم يتمكن المورد من شرح تحديثات النموذج أو معالجة البيانات أو الاستجابة للحوادث، فقم بإيقاف عملية الشراء مؤقتًا أو تقييد حالة الاستخدام. مطالبات القدرة رخيصة. إن المساءلة التشغيلية هي الاختبار الأصعب.
ملخص الاستعداد المقروء آليًاjson
{ "framework": "حلقة الاستعداد للذكاء الاصطناعي في Optijara Clinical"، "المراحل": ["النطاق"، "الدليل"، "الحدود"، "التقييم"، "التشغيل"، "التحسين"]، "recommated_starting_use_cases": ["تلخيص المدخول"، "مسودات التوثيق التي راجعها الطبيب"، "تثقيف المريض المعتمد"، "التنقل في الرعاية مع التصعيد"]، "restricted_use_cases": ["التشخيص المستقل"، "تغييرات الدواء غير المراجعة"، "الفرز في حالات الطوارئ دون إشراف بشري"، "التعامل مع الأزمات التي يواجهها المريض دون تصعيد موثوق"]، "minimum_controls": ["حدود الموافقة البشرية"، "مجموعة التقييم المحلية"، "مراجعة الخصوصية"، "سجلات التدقيق"، "مراقبة السلامة"، "خطة التراجع"]، "deployment_rule": "لا تتوسع إلى ما هو أبعد من الإصدار التجريبي حتى يتم استيفاء حدود السلامة والجودة وسير العمل والحوكمة." }
كيف تبدأ دون المبالغة في البناء
نقطة البداية المعقولة هي الاستعداد السريع لمدة أسبوعين. في الأسبوع الأول، قم بتخطيط سير العمل، وتصنيف المخاطر، وجمع الأدلة، وتصميم مجموعة التقييم. في الأسبوع الثاني، قم بإجراء اختبارات بأثر رجعي، ومراجعة حالات الفشل مع أصحاب المصلحة السريريين، واستكمال استبيان المشتريات، وتحديد ما إذا كان النظام جاهزًا لتجربة صامتة، أو طيار تحت الإشراف، أو الرفض.
بالنسبة للمؤسسات التي تقوم بالفعل ببناء حوكمة الذكاء الاصطناعي، قم بربط سير العمل هذا بمحفظة الذكاء الاصطناعي الأوسع. يمكن أن تشتمل لوحات المعلومات التنفيذية على بوابات أمان خاصة بالسرير. الإنتاجية تقع خلف السلامة والجودة، وليس أمامهما.
ابدأ بشكل ضيق: مستخدم محدد، وطبقة أدلة موثقة، ومخرجات قابلة للمراجعة، وحدود مراقبة. قم بالتوسيع فقط عندما تُظهر حلقة الاستعداد أن النظام مفيد ومُحكم وآمن بدرجة كافية للخطوة التالية.
النقاط الرئيسية
- 1يجب أن يبدأ جاهزية الذكاء الاصطناعي الطبي بنطاق سير العمل، وليس باختيار النموذج.
- 2يشير عمل التقييم الصحي لـ Google AMIE وOpenAI إلى التفكير الطولي وتقييم المجال الأقوى، لكن الأدلة البحثية لا تمثل التحقق من صحة الإنتاج.
- 3يحتاج مساعدو الطيارون السريريون، ومساعدو الفرز، والذكاء الاصطناعي الذي يتعامل مع المريض إلى حدود واضحة للتفاعل البشري تكون قابلة للتنفيذ في المنتج.
- 4يجب أن يشمل التقييم الصحة السريرية، وسلوك السلامة، والخصوصية، والإنصاف، وملاءمة سير العمل، والتحكم في الهلوسة، والمرونة التشغيلية.
- 5ينبغي تجنب بعض مسارات العمل، مثل التشخيص المستقل أو الفرز في حالات الطوارئ غير المراجعة، أو تقييدها بشدة حتى تصبح الأدلة والرقابة أقوى بكثير.
- 6تعتبر مراقبة ما بعد النشر إلزامية لأن النماذج والمطالبات والإرشادات ومصادر الاسترجاع وسلوك المستخدم يمكن أن تنحرف.
الخلاصة
يكون الذكاء الاصطناعي الطبي مفيدًا فقط عندما تتعامل الفرق مع الاستعداد باعتباره نظامًا تشغيليًا. توفر حلقة جاهزية الذكاء الاصطناعي في Optijara Clinical للشركات مسارًا عمليًا بدءًا من الاهتمام البحثي وحتى التقييم المنظم والطيارين الخاضعين للرقابة والطرح الخاضع للمراقبة. لن تكون الفرق الأكثر أمانًا هي التي تنتشر بشكل أسرع. سيكونون هم الذين يعرفون أين يُسمح بالذكاء الاصطناعي، وأين يجب على البشر أن يقرروا، وكيف سيتم اكتشاف الفشل قبل أن ينتشر.
الأسئلة الشائعة
ما هو جاهزية الذكاء الاصطناعي الطبي؟
الاستعداد الطبي للذكاء الاصطناعي هو عملية تحديد ما إذا كان سير عمل الذكاء الاصطناعي السريري أو السريري المجاور يحتوي على ما يكفي من الأدلة والإشراف والتحكم في الخصوصية والتقييم والمراقبة والحوكمة للانتقال إلى مرحلة تجريبية أو إنتاجية.
هل يمكن نشر Google AMIE أو أنظمة بحث مماثلة مباشرة في الرعاية السريرية؟
لا ينبغي التعامل مع أنظمة البحث كدليل إنتاج مباشر. يمكنهم إبلاغ متطلبات التقييم وتوجيه المنتج، ولكن النشر يتطلب التحقق المحلي ومراجعة الإدارة والإشراف البشري والمراقبة.
ما هي نقطة البداية الأكثر أمانًا للذكاء الاصطناعي السريري؟
غالبًا ما تشتمل نقاط البداية منخفضة المخاطر على تلخيص المدخول، ومسودات الوثائق التي يراجعها الطبيب، وتثقيف المريض المعتمد، وتنقل الرعاية مع تصعيد واضح. لا تزال نقطة البداية الصحيحة تعتمد على مخاطر سير العمل، وحساسية البيانات، والقدرة على الإشراف.
كيف ينبغي للمؤسسات تقييم مساعد الطيار السريري؟
يجب على المؤسسات اختبار الصحة السريرية، ومواءمة المبادئ التوجيهية، والتعامل مع العلامات الحمراء، وسلوك عدم اليقين، والهلوسة، وضوابط الخصوصية، وعبء سير العمل، والإنصاف، والكمون، والسلوك الاحتياطي، ومراقبة ما بعد النشر.
ما الذي يجب على الفرق تجنبه في الذكاء الاصطناعي الذي يواجه المريض؟
يجب على الفرق تجنب التشخيص المستقل، والتغييرات الدوائية غير المراجعة، والفرز في حالات الطوارئ دون إشراف بشري، والطمأنينة الزائفة، ومسارات التصعيد غير الواضحة، وأي حالة استخدام حيث قد يتعامل المريض مع مخرجات الذكاء الاصطناعي كنصيحة طبية نهائية.
المصادر
- https://research.google/blog/from-diagnosis-to-treatment-advancing-amie-for-longitudinal-disease-management/
- https://research.google/blog/amie-a-research-ai-system-for-diagnostic-medical-reasoning-and-conversations/
- https://openai.com/index/healthbench/
- https://openai.com/index/lifescibench/
- https://www.who.int/publications/i/item/9789240029200
- https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-enabled-medical-devices
- https://www.nist.gov/itl/ai-risk-management-framework
بقلم
Hamza Diazحمزة دياز هو مؤسس Optijara، حيث يبني وكلاء ذكاء اصطناعي عمليين، وأنظمة أتمتة، وسير عمل Copilot للشركات الخدمية. يكتب عن تشغيل الذكاء الاصطناعي، واستراتيجية الوكلاء، والتطبيق الواقعي للفرق التي تريد أنظمة مفيدة بدلًا من الضجيج.
