طوفان نماذج الذكاء الاصطناعي في مارس 2026: GPT-5.4، وQwen 3.5 Small، وLTX 2.3، و9 نماذج أخرى
ملخص لطفرة الذكاء الاصطناعي في مارس 2026، والتي تتميز بسياق GPT-5.4 البالغ مليون توكن، وقدرات Qwen 3.5 على الأجهزة، وإنتاج فيديو بدقة 4K مفتوح المصدر من LTX 2.3.
شهد الأسبوعان الأولان من شهر مارس 2026 واحدة من أكثر الفترات كثافة في إصدارات الذكاء الاصطناعي في تاريخ الصناعة. فخلال 14 يوماً، أعلنت مؤسسات شملت OpenAI، وعلي بابا (Alibaba)، ولايتريكس (Lightricks)، وبايت دانس (ByteDance)، وميتا (Meta)، وعدة جامعات، عن 12 نموذجاً وأداة رئيسية على الأقل شملت مجالات اللغة، والفيديو، وتحرير الصور، وتوليد النماذج ثلاثية الأبعاد، وبرمجة وحدات معالجة الرسومات (GPU). إليكم ما حدث، وما يعنيه ذلك، وأي الإصدارات تهم المطورين والمنفذين حقاً.
GPT-5.4: النموذج الرائد الجديد من OpenAI
أصدرت OpenAI نموذج GPT-5.4 في 5 مارس، ووصفته بأنه "النموذج الحدودي الأكثر قدرة وكفاءة للعمل المهني". يتوفر النموذج في ثلاثة إصدارات: GPT-5.4 Standard، وGPT-5.4 Thinking (المتمحور حول الاستنتاج)، وGPT-5.4 Pro (القدرة القصوى).
الأرقام الرئيسية: نافذة سياق تبلغ 1.05 مليون توكن (الأكبر التي قدمتها OpenAI على الإطلاق)، وانخفاض بنسبة 33% في أخطاء الادعاءات الفردية مقارنة بـ GPT-5.2، وانخفاض بنسبة 18% في أخطاء الاستجابة الكاملة. في معيار GDPval من OpenAI للعمل المعرفي، سجل النموذج 83%.
الميزة الأكثر إثارة للاهتمام من الناحية التقنية هي "البحث عن الأدوات" (Tool Search). بدلاً من تحميل تعريف كل أداة في نص التوجيه (الأمر الذي يستهلك التوكنات ويزيد من زمن الاستجابة)، يقوم GPT-5.4 بالبحث ديناميكياً عن تعريفات الأدوات أثناء وقت التشغيل. بالنسبة للأنظمة التي تحتوي على عشرات أو مئات الأدوات المتصلة، فإن هذا يقلل بشكل ملموس من التكلفة ووقت الاستجابة.
تبدأ أسعار واجهة برمجة التطبيقات (API) من 2.50 دولار لكل مليون توكن مدخل و15.00 دولار لكل مليون توكن مخرج للسياق القياسي، مع رسوم إضافية تبلغ ضعفي القيمة لما يتجاوز 272 ألف توكن. هذا يجعل GPT-5.4 منافساً لـ Claude Opus 4 وGemini 3 Pro من حيث السعر مع تقديمه لأكبر نافذة سياق لأي نموذج تجاري.
Qwen 3.5 Small: ذكاء اصطناعي على الأجهزة يعمل بكفاءة حقاً
أصدرت "علي بابا" سلسلة نماذج Qwen 3.5 Small في 1 مارس بأربعة إصدارات: 0.8 مليار، و2 مليار، و4 مليار، و9 مليار بارامتر. ويعد نموذج 9B هو الأبرز — حيث يضاهي GPT-OSS-120B (وهو نموذج أكبر منه بـ 13 مرة) في معيار GPQA Diamond (81.7 مقابل 71.5) ومعيار HMMT فبراير 2025 (83.2 مقابل 76.7).
يعمل نموذج 2B على أي جهاز iPhone حديث في وضع الطيران باستخدام 4 غيغابايت فقط من ذاكرة الوصول العشوائي (RAM). هذا ليس مجرد عرض تقني — بل هو قدرة جاهزة للاستخدام في التطبيقات التي تحتاج إلى استدلال محلي دون الاعتماد على السحابة.
بالنسبة لمطوري تطبيقات الهاتف المحمول والتطبيقات التي تركز على الخصوصية، يغير Qwen 3.5 Small الحسابات المتعلقة باستخدام النماذج المحلية مقابل النماذج القائمة على السحابة. قبل ستة أشهر، كانت النماذج التي تعمل على الأجهزة تعتبر حلاً وسطاً؛ أما الآن، فهي منافسة في معايير الأداء الهامة.
وتمتد التداعيات إلى ما هو أبعد من الهواتف المحمولة؛ إذ يمكن للأجهزة الطرفية (Edge devices)، وبيئات المؤسسات المعزولة عن الشبكة، وتطبيقات إنترنت الأشياء (IoT) الآن تشغيل نماذج لغوية قديرة دون أي اتصال بالشبكة.
LTX 2.3: توليد الفيديو مفتوح المصدر يصل إلى جودة الإنتاج الاحترافي
أصدرت لايتريكس نموذج LTX 2.3، وهو "محول انتشار" (Diffusion Transformer) بـ 22 مليار بارامتر يقوم بتوليد الفيديو والصوت المتزامنين في تمريرة واحدة. يدعم النموذج دقات تصل إلى 4K بمعدل 50 إطاراً في الثانية، ومدداً تصل إلى 20 ثانية، ويتوفر في أربعة إصدارات: dev، وdistilled، وfast، وpro.
تشمل التحسينات الرئيسية عن الإصدارات السابقة إعادة بناء المشفر التلقائي التبايني (VAE) للحصول على أنسجة وحواف أكثر حدة، وموصل نصي بآلية انتباه مبوبة (gated attention) لالتزام أفضل بنص التوجيه، وصوت أكثر نقاءً من خلال بيانات تدريب مصفاة، وتوليد أصيل للوضع الرأسي بدقة 1080x1920 — وهو أمر مهم لمنشئي المحتوى على TikTok وInstagram Reels.
يعمل إصدار "distilled" في 8 خطوات فقط لإزالة الضجيج، مما يجعل التكرار في الوقت الفعلي أمراً عملياً. للمقارنة، كانت نماذج الانتشار السابقة تتطلب عادةً من 25 إلى 50 خطوة للحصول على جودة مماثلة.
إن LTX 2.3 مفتوح المصدر. بالنسبة للشركات الناشئة التي تبني منتجات تعتمد على الفيديو أو سلاسل إنتاج المحتوى، فإن هذا يلغي الحاجة إلى واجهات برمجة تطبيقات مكلفة لتوليد الفيديو مملوكة لشركات أخرى.
Helios: فيديوهات مدتها دقيقة بسرعة الوقت الفعلي
نموذج Helios، وهو نموذج بـ 14 مليار بارامتر من جامعة بكين وبايت دانس وكانفا (Canva)، يولد فيديوهات تصل إلى 1440 إطاراً (حوالي دقيقة واحدة بمعدل 24 إطاراً في الثانية) بسرعة 19.5 إطاراً في الثانية على وحدة معالجة رسومات NVIDIA H100 واحدة.
ما يجعل Helios جديراً بالملاحظة من الناحية التقنية هو ما يتجنبه: لا يوجد ذاكرة مؤقتة للقيم والمفاتيح (KV-cache)، ولا تكميم (quantization)، ولا انتباه متناثر (sparse attention)، ولا مجريات كشف الانحراف (anti-drifting heuristics). بدلاً من ذلك، طور الفريق استراتيجيات "تدفق الضغط العميق" (Deep Compression Flow) و"مكافحة الانحراف السهل" (Easy Anti-Drifting) أثناء التدريب للتعامل مع التوليد طويل المدى بشكل أصيل. يدعم النموذج تحويل النص إلى فيديو، والصورة إلى فيديو، والفيديو إلى فيديو من خلال تمثيل إدخال موحد.
تم إصدار Helios بموجب ترخيص Apache 2.0، وهو مجاني للاستخدام التجاري. بالنسبة لسير عمل إنتاج الفيديو الذي يحتاج إلى مقاطع أطول دون التدهور البصري الشائع في عمليات التوليد الممتدة، يعد هذا إصداراً مهماً.
CUDA Agent: ذكاء اصطناعي يكتب كود GPU
أصدر مختبر ByteDance Seed وجامعة تسينغوا نظام CUDA Agent، وهو نظام تعلم معزز وكيل (agentic RL) يقوم تلقائياً بتوليد "نوى كود كودا" (CUDA kernels) المحسنة. يقوم النظام بإنشاء 6000 مثال تدريبي ويتدرب من خلال منهج ثلاثي المستويات، يتدرج من العمليات البسيطة للعناصر الفردية إلى النوى المعقدة متعددة المراحل مثل آليات الانتباه.
في معيار KernelBench، حقق CUDA Agent معدلات نجاح بنسبة 100% في مستويي الفصل الأول والثاني، و92% في المستوى الثالث. وهو يتفوق على النماذج المملوكة بما في ذلك Claude Opus 4 وGemini 3 Pro بنسبة 40% في أصعب مهام توليد النوى.
بالنسبة لفرق بنية الذكاء الاصطناعي التحتية، يعالج CUDA Agent عقبة مستمرة: كتابة وتحسين نوى CUDA تستهلك وقتاً طويلاً وتتطلب خبرة متخصصة. أتمتة هذه العملية قد تسرع من نشر النماذج المخصصة وتحسينات الأجهزة المحددة.
FireRed Edit وKiwi Edit: ترقيات تحرير الصور والفيديو
FireRed-Image-Edit-1.1 هو نموذج عالمي لتحرير الصور يتميز بأحدث مستويات اتساق الهوية ودعم دمج العناصر المتعددة مع أكثر من 10 عناصر عبر خط إنتاج مدعوم بالوكلاء. كما يعالج مكياج الصور الشخصية عبر مئات الأساليب ويدعم عقد ComfyUI وتنسيقات GGUF خفيفة الوزن لنشر الإنتاج.
أما Kiwi-Edit من NUS ShowLab فيعالج تحرير الفيديو من خلال الجمع بين التعليمات النصية والصور المرجعية. بُني النموذج على Qwen2.5-VL-3B وWan2.2-TI2V-5B، وتم تدريبه على 477,000 مجموعة رباعية وسجل 3.02 في معيار OpenVE-Bench — وهي أعلى درجة بين طرق تحرير الفيديو مفتوحة المصدر. ويتم توزيعه بموجب ترخيص MIT.
توسع كلتا الأداتين ما هو ممكن باستخدام أدوات الذكاء الاصطناعي الإبداعي مفتوحة المصدر. المصممون ومنشئو المحتوى الذين يعملون مع سلاسل تحرير الفيديو والصور لديهم الآن بدائل منافسة للحلول المملوكة.
ماذا يعني هذا للمطورين والمؤسسين
تنبثق ثلاثة أنماط من هذه الموجة من الإصدارات: أصبح الذكاء الاصطناعي على الأجهزة جاهزاً للاستخدام الفعلي، وتوليد الفيديو يقترب من أن يصبح سلعة شائعة، وأصبح استخدام الأدوات قدرة أساسية من الدرجة الأولى في النماذج. ولهذا تداعيات مباشرة على كيفية تصميم المطورين للتطبيقات المدعومة بالذكاء الاصطناعي، مع إعطاء الأولوية للاستدلال المحلي من أجل الخصوصية والبحث الديناميكي عن الأدوات من أجل الكفاءة.
الخلاصة
تمثل دورة إصدارات مارس 2026 نقطة تحول حيث أصبحت القدرات الرائدة مثل سياقات المليون توكن وتوليد فيديو بدقة 4K متاحة عبر المصادر المفتوحة وواجهات البرمجة الفعالة. ومع تحسين GPT-5.4 لاستخدام الأدوات وتمكين Qwen 3.5 للاستدلال المحلي عالي الأداء، تلاشت الفجوة فعلياً بين الأبحاث والأدوات الجاهزة للإنتاج. بالنسبة للمطورين، يتحول التركيز الآن من مطاردة الاختبارات القياسية إلى هندسة تطبيقات متطورة مدمجة بالأدوات.
أهم النقاط
- شهد الأسبوعان الأولان من مارس 2026 فترة مكث
Conclusion
تمثل دورة إصدارات مارس 2026 نقطة تحول حيث أصبحت القدرات الرائدة مثل سياقات المليون توكن وتوليد فيديو بدقة 4K متاحة عبر المصادر المفتوحة وواجهات البرمجة الفعالة. ومع تحسين GPT-5.4 لاستخدام الأدوات وتمكين Qwen 3.5 للاستدلال المحلي عالي الأداء، تلاشت الفجوة فعلياً بين الأبحاث والأدوات الجاهزة للإنتاج. بالنسبة للمطورين، يتحول التركيز الآن من مطاردة الاختبارات القياسية إلى هندسة تطبيقات متطورة مدمجة بالأدوات.
Key Takeaways
- The first two weeks of March 2026 saw an unprecedented surge in AI releases
الخلاصة
تمثل دورة إصدارات مارس 2026 نقطة تحول حيث أصبحت القدرات الرائدة مثل سياقات المليون توكن وتوليد فيديو بدقة 4K متاحة عبر المصادر المفتوحة وواجهات البرمجة الفعالة. ومع تحسين GPT-5.4 لاستخدام الأدوات وتمكين Qwen 3.5 للاستدلال المحلي عالي الأداء، تلاشت الفجوة فعلياً بين الأبحاث والأدوات الجاهزة للإنتاج. بالنسبة للمطورين، يتحول التركيز الآن من مطاردة الاختبارات القياسية إلى هندسة تطبيقات متطورة مدمجة بالأدوات.
الأسئلة الشائعة
ما هو حجم نافذة السياق لنموذج GPT-5.4؟
يدعم GPT-5.4 ما يصل إلى 1.05 مليون توكن في نافذة سياق واحدة، وهو الأكبر الذي قدمته OpenAI حتى الآن. تُطبق الأسعار القياسية حتى 272 ألف توكن، مع رسوم إضافية تبلغ ضعفي السعر بعد ذلك الحد.
هل يمكن لنموذج Qwen 3.5 Small العمل دون اتصال بالإنترنت على الهاتف؟
نعم. تعمل نسخة الـ 2 مليار معلمة على أجهزة iPhone الحديثة في وضع الطيران مع ذاكرة وصول عشوائي (RAM) تبلغ حوالي 4 جيجابايت. وهي تعالج كلاً من النصوص والصور دون الحاجة لأي اتصال بالشبكة.
هل LTX 2.3 مجاني للاستخدام التجاري؟
نموذج LTX 2.3 مفتوح المصدر ومتاح للاستخدام التجاري. ويأتي في أربعة إصدارات (dev، distilled، fast، pro) لدعم المفاضلات المختلفة بين السرعة والجودة.
ما الذي يجعل CUDA Agent مختلفاً عن استخدام GPT أو Claude لتوليد الكود؟
تم تدريب CUDA Agent خصيصاً من خلال التعلم المعزز الوكيلي لتوليد نواة وحدة معالجة الرسومات (GPU kernel). ويستخدم منهجاً تعليمياً مكوناً من ثلاثة مستويات ويحقق معدلات نجاح تبلغ 92% في أصعب اختبارات النواة، متفوقاً على النماذج العامة بنسبة 40% في هذه المهام المتخصصة.
كيف يقوم Helios بتوليد فيديوهات مدتها دقيقة دون تدهور الجودة؟
يستخدم Helios استراتيجيات 'Deep Compression Flow' و'Easy Anti-Drifting' التي تم تطويرها أثناء التدريب، بدلاً من الاعتماد على 휴리스틱 (heuristics) وقت الاستدلال مثل KV-cache أو الانتباه المتفرق. يتعامل هذا النهج مع التوليد طويل المدى بشكل أصيل داخل بنية النموذج.
المصادر
بقلم
Optijara