أطلقت شركة OpenAI ميزة جديدة تحت اسم ChatGPT Agent، تمثل نقلة نوعية في تطوير نماذج الذكاء الاصطناعي، إذ أصبح بإمكان ChatGPT التفكير والتصرف باستخدام جهازه الحاسوبي الافتراضي، لتنفيذ مهام كاملة نيابة عن المستخدم، بداية من التحليل والبحث، وصولاً إلى التفاعل مع مواقع الإنترنت وإنتاج نتائج قابلة للتعديل مثل عروض الشرائح، وجداول البيانات.
وبحسب بيان رسمي، أصبح بالإمكان توجيه أوامر متقدمة لـChatGPT، مثل: “راجع تقويمي وأعدّ لي ملخصاً لاجتماعات العملاء القادمة بناءً على آخر الأخبار”، أو “خطط واشترِ مكونات لتحضير وجبة إفطار يابانية لأربعة أشخاص”، أو حتى “حلل 3 منافسين واصنع عرض شرائح تقديمي”.
في كل تلك المهام، يستطيع النموذج استخدام أدوات متعددة كالمتصفح البصري للويب، والمتصفح النصي، وواجهة طرفية لكتابة الأكواد (Terminal)، والوصول المباشر إلى الواجهات البرمجية للتطبيقات (API)، كما يمكنه أن يطلب من المستخدم تسجيل الدخول بشكل آمن عند الحاجة ليتحكم بنفسه في إتمام المهام.
وكيل رقمي موحد
وتقوم المنظومة الجديدة على ما وصفته الشركة بـ”نظام وكيل موحد” يجمع بين ثلاث ركائز رئيسية وهي خدمة “Operator” المتخصصة في التفاعل مع المواقع الإلكترونية، وقوة “البحث العميق Deep Research” في تحليل وتلخيص المعلومات، وروبوت الدردشة الشهير ChatGPT.
من خلال الدمج بين الخدمات الثلاث، سيمكن للميزة الجديدة أن تنتقل بسلاسة بين مراحل التفكير والتنفيذ، لتنفيذ المهام التي يوكلها إليها المستخدم من البداية حتى النهاية، بناءً على تعليماته بدقة.
وتشدد OpenAI على أن المستخدم يظل دائماً متحكماً في سير العمل، إذ لا يتخذ ChatGPT أي قرار أو فعل ذا تبعات حقيقية دون إذن صريح من المستخدم، والذي يمكنه إيقاف العمل أو تولّي التحكم أو تغيير المهام في أي لحظة.
وتتوفر ميزة ChatGPT Agent الجديدة لمستخدمي خطط Pro وPlus وTeam، ويمكن تفعيلها من قائمة الأدوات في أي محادثة عبر خيار “وضع الوكيل” Agent Mode.
وتُشير الشركة إلى أن هذه الخطوة تمثل البداية فقط، إذ سيتم توسيع القدرات وتحسين الأداء بمرور الوقت.
دمجت الشركة مزايا “Operator”، و”البحث العميق” داخل النموذج الجديد، بعد أن تبيّن أن الكثير من استفسارات المستخدمين كان يمكن تلبيتها بكفاءة أعلى من خلال دمج الإمكانات، فميزة Operator كانت قادرة على التصفح والنقر والكتابة عبر الإنترنت، بينما “البحث العميق” قدّم تحليلات معمّقة وتقارير دقيقة، لكن كل منهما كان محدوداً في التعامل مع مهام الآخر.
من خلال هذه التكاملات، بات بإمكان ChatGPT الآن التفاعل مع المواقع الإلكترونية بذكاء، تصفّح المحتوى، وتطبيق عوامل تصفية، وتحقيق نتائج أدق وأكثر كفاءة، كما يمكن للمحادثة مع النموذج أن تبدأ بسؤال بسيط وتتحول بسلاسة إلى تنفيذ فعلي للمهام ضمن السياق نفسه.
وجرى تزويد ChatGPT Agent بمجموعة متكاملة من الأدوات، تشمل: متصفح بصري للتفاعل مع المواقع عبر واجهة رسومية، ومتصفح نصي للاستفسارات البسيطة، وواجهة طرفية لتنفيذ الأوامر البرمجية، إلى جانب وصول مباشر إلى واجهات التطبيقات مثل Gmail وGitHub، ويمكن للمستخدم أيضاً السماح للنموذج بتسجيل الدخول إلى المواقع، ما يوسّع من نطاق البحث والتنفيذ.
وتعمل هذه الأدوات جميعاً من خلال جهاز افتراضي يحافظ على سياق المهمة، حتى عند استخدام أدوات متعددة في آنٍ واحد. فعلى سبيل المثال، يمكن للنموذج فتح صفحة باستخدام المتصفح النصي، وتحميل ملف، وتعديل الملف، ثم عرض النتائج مجدداً في المتصفح البصري.
تجربة تفاعلية
وصُمم ChatGPT Agent ليكون أداة تعاونية تفاعلية، تتيح للمستخدم مقاطعة المهمة في أي لحظة لتقديم إيضاحات إضافية أو تغيير المسار بالكامل، دون فقدان التقدم الذي تم تحقيقه بالفعل.
وكذلك، يمكن للنموذج طلب تفاصيل إضافية تلقائياً عندما يرى أنها ضرورية لاستمرار المهمة بشكل صحيح، وإذا طال وقت التنفيذ، يمكن للمستخدم أن يوقف المهمة، ويطلب ملخصاً مرحلياً، أو يُنهيها للحصول على النتائج الجزئية، ويمكن لتطبيق ChatGPT على الهاتف إرسال إشعار عند اكتمال المهمة، حتى وإن كان قد بدأها المستخدم عبر نفس حسابه على الحاسوب.
وتوسّع هذه القدرات الجديدة من فائدة ChatGPT في البيئات المهنية واليومية، ففي مكان العمل، يمكن استخدامه لأتمتة المهام المتكررة، مثل تحويل لقطات الشاشة إلى عروض تقديمية قابلة للتعديل، وإعادة ترتيب الاجتماعات، وتخطيط الفعاليات، وتحديث جداول البيانات بأحدث معلومات متوفرة مع الحفاظ على التنسيق.
وعلى المستوى الشخصي، يمكن استخدامه لتنظيم رحلات السفر، وتنسيق حفلات العشاء، أو البحث عن مختصين وجدولة مواعيد.
نتائج الاختبارات
وأظهرت اختبارات الأداء نتائج بارزة للنموذج الجديد، إذ حقق نسبة نجاح 41.6% في اختبار Humanity’s Last Exam، وهو اختبار يقيس أداء الذكاء الاصطناعي في أسئلة ذات طابع احترافي، وارتفعت النسبة إلى 44.4% عند استخدام استراتيجية التكرار المتوازي، كما أحرز 27.4% في اختبار FrontierMath، متفوّقاً بذلك على جميع النماذج السابقة.
كما تفوق ChatGPT Agent في اختبارات محاكاة لمهام العمل الواقعية، مثل تحليل مزودي خدمات الرعاية الصحية الطارئة، وإعداد جداول إطفاء الديون، وتحديد مواقع آبار المياه لمشروعات الهيدروجين الأخضر، وحقق أداءً مماثلاً أو أفضل من البشر في نصف الحالات تقريباً، متفوقاً على نماذج o3، وo4-mini.
وفي اختبار SpreadsheetBench، سجل ChatGPT Agent نسبة 45.5% عند تعديل الجداول مباشرة، مقارنة بـ20% لـCopilot في Excel.
كما حقق نتائج عالية في اختبار DSBench الخاص بتحليل البيانات، وفي اختبار BrowseComp المصمم لتقييم قدرات البحث الدقيقة، إذ تفوّق بنسبة 68.9%، أي أعلى بـ17.4 نقطة مئوية من نموذج “البحث العميق”.
مستوى فائق من الحماية الرقمية
من الناحية الأمنية، شدّدت OpenAI على أن هذا الإصدار الأول من نوعه الذي يسمح لـChatGPT باتخاذ إجراءات فعلية على الإنترنت، ما استوجب تعزيز أنظمة الحماية خصوصاً في التعامل مع البيانات الحساسة والمواقع ذات الوصول المحدود.
وتم تدريب النموذج على مقاومة محاولات “حقن الأوامر الخبيثة” (prompt injection)، مثل تلك التي تُخفى ضمن عناصر غير مرئية في صفحات الويب، وفي حال نجحت هذه الهجمات، قد تقوم الأداة بإجراءات ضارة، لكن OpenAI أكدت اعتمادها أنظمة مراقبة فورية واستراتيجيات حماية فعالة.
وتشمل الضمانات الأمنية أيضاً تأكيد المستخدم قبل أي إجراء ذي تبعات واقعية، ورفض المهام ذات المخاطر العالية مثل التحويلات البنكية، كما توفرت عناصر تحكم في الخصوصية مثل حذف بيانات التصفح بنقرة واحدة، وعدم تخزين أي كلمات مرور خلال الجلسات.
وبالنظر لقدرات النموذج المتزايدة، اعتبرت OpenAI أن ChatGPT Agent يدخل ضمن فئة المخاطر البيولوجية والكيميائية العالية، رغم عدم وجود دليل على أنه قد يُستخدم لأذى بيولوجي مباشر.
وتم اتخاذ جميع تدابير الحماية المناسبة، بما يشمل مراجعات من خبراء في الأمان الحيوي واختبارات من فرق تقييم خارجية، بالإضافة إلى ورشة عمل نظّمتها الشركة مؤخراً بالتعاون مع معاهد أكاديمية ومختبرات وطنية.
وتقر الشركة بأن ميزة العروض التقديمية لا تزال في طور “النسخة التجريبية”، وقد تبدو النتائج في بعض الأحيان بسيطة من حيث التنسيق، لكنها تعمل على تدريب النموذج لإنتاج محتوى أكثر صقلاً واحترافية، مع دعم أفضل للعروض المعدّلة.
وأكدت OpenAI أن التحسينات ستستمر خلال الفترة المقبلة، على مستوى الأداء، والكفاءة، وتخفيف الحاجة إلى تدخل المستخدم، مع الحفاظ على أعلى درجات الأمان.