نظرة سريعة على شات جي بي تي كودكس: وكيل برمجة بالذكاء الاصطناعي

المسيرة المتواصلة للذكاء الاصطناعي تعيد تشكيل الصناعات، وهندسة البرمجيات في طليعة هذا التحول. لم تعد الأدوات المدعومة بالذكاء الاصطناعي مفاهيم مستقبلية، بل مساعدين عمليين، يعززون قدرات المطورين ويبسطون سير العمل المعقدة. كشفت OpenAI، الاسم البارز في أبحاث الذكاء الاصطناعي، مؤخرًا عن أحدث مساهماتها في هذا المشهد المتطور: ChatGPT Codex، وكيل هندسة برمجيات قائم على السحابة مصمم لمعالجة العديد من مهام البرمجة بالتوازي. هذا العرض الجديد، المتاح في البداية لمستخدمي ChatGPT Pro و Team و Enterprise، مع إصدارات Plus و Edu في الأفق، يعد بإعادة تعريف كيفية تفاعل المطورين مع قواعد بياناتهم البرمجية وبناء البرامج.

💡

هل تريد أداة رائعة لاختبار واجهات برمجة التطبيقات (API) تولد توثيقًا جميلًا لواجهات برمجة التطبيقات؟

هل تريد منصة متكاملة وشاملة لفريق المطورين لديك للعمل معًا بـ أقصى إنتاجية؟

Apidog يلبي جميع طلباتك، ويحل محل Postman بسعر معقول أكثر بكثير!

button

فجر هندسة البرمجيات المدعومة بالذكاء الاصطناعي: تقديم Codex

تخيل لوحة تحكم تسأل، "ماذا يجب أن نبرمج بعد ذلك؟" مكتملة بمربع إدخال، ومحددات للمستودعات والفروع، وقائمة مهام، وكل ذلك على خلفية بألوان الباستيل مستوحاة من الأكواد. هذه هي البوابة إلى Codex، وكيل مهيأ ليصبح جزءًا لا غنى عنه من أدوات المطور. تم تصميم Codex للتعامل مع مجموعة متنوعة من المهام - من كتابة ميزات جديدة والإجابة على أسئلة معقدة حول قاعدة بيانات برمجية إلى إصلاح الأخطاء واقتراح طلبات سحب للمراجعة. تتم معالجة كل مهمة بدقة في بيئة سحابة معزولة خاصة بها (sandbox)، محملة مسبقًا بالمستودع المحدد، مما يضمن العزل والتركيز.

في جوهره، يعمل Codex بواسطة codex-1، وهو إصدار متخصص من نموذج o3 الخاص بـ OpenAI، تم ضبطه بدقة لفروق هندسة البرمجيات الدقيقة. تنبع براعة هذا النموذج من التعلم المعزز الصارم، حيث تم تدريبه على مهام برمجة واقعية عبر بيئات مختلفة. كان الهدف واضحًا: توليد كود لا يعمل فقط بشكل لا تشوبه شائبة، بل يعكس أيضًا تفضيلات الأسلوب البشري، ويلتزم بدقة بالتعليمات، ويمكنه تشغيل الاختبارات بشكل متكرر حتى يتم تحقيق نتيجة ناجحة. يمثل إطلاق Codex خطوة كبيرة نحو مساعدة برمجة أكثر ذكاءً واستقلالية.

تحت الغطاء: كيف يعمل Codex

الوصول إلى Codex سهل لمستخدمي ChatGPT المؤهلين، مع قسم مخصص في الشريط الجانبي. يمكن للمطورين تعيين مهام برمجة جديدة عن طريق كتابة طلب وبدء أمر "Code" (البرمجة)، أو طرح أسئلة حول قاعدة بياناتهم البرمجية باستخدام وظيفة "Ask" (السؤال).

القوة الحقيقية لـ Codex تكمن في قدراته على المعالجة المتوازية. يتم التعامل مع كل مهمة بشكل مستقل داخل بيئة سحابة معزولة ومنفصلة (sandbox). يتم تحميل هذه البيئة مسبقًا بقاعدة البيانات البرمجية ذات الصلة، مما يسمح لـ Codex بقراءة الملفات وتعديلها، وتنفيذ الأوامر (بما في ذلك أدوات الاختبار، ومدققات الأكواد، ومدققات الأنواع)، والعمل دون تداخل من المهام الأخرى الجارية. تختلف أوقات إكمال المهام، وتتراوح عادةً من دقيقة إلى ثلاثين دقيقة حسب التعقيد، ويمكن للمستخدمين مراقبة التقدم في الوقت الفعلي.

جانب حاسم في Codex هو التزامه بالعمل القابل للتحقق. بمجرد اكتمال المهمة، يقوم Codex بتثبيت تغييراته داخل بيئته. لا يقدم الكود النهائي فحسب؛ بل يوفر أدلة قابلة للتحقق من أفعاله من خلال استشهادات من سجلات الطرفية ومخرجات الاختبار. تتيح هذه الشفافية للمطورين تتبع كل خطوة تم اتخاذها أثناء إكمال المهمة، مما يعزز الثقة ويمكّن من المراجعة الشاملة. يمكن للمستخدمين بعد ذلك تحديد ما إذا كانوا يريدون طلب مراجعات إضافية، أو فتح طلب سحب على GitHub، أو دمج التغييرات مباشرة في بيئة التطوير المحلية الخاصة بهم. علاوة على ذلك، يمكن تهيئة بيئة Codex لتعكس بشكل وثيق إعداد التطوير الفعلي للمستخدم، مما يضمن التوافق والملاءمة.

توجيه الوكيل: دور ملفات AGENTS.md وتوجيهات النظام

لزيادة تعزيز فعاليته وتخصيص سلوكه ليناسب احتياجات المشروع المحددة، يمكن توجيه Codex بواسطة ملفات AGENTS.md الموضوعة داخل المستودع. تعمل هذه الملفات النصية، تمامًا مثل ملف README.md المألوف، كقناة اتصال بين المطورين البشريين ووكيل الذكاء الاصطناعي. من خلال AGENTS.md، يمكن للمطورين إبلاغ Codex بكيفية التنقل في قاعدة البيانات البرمجية، والأوامر التي يجب تشغيلها للاختبار، وأفضل طريقة للالتزام بمعايير وممارسات البرمجة المعمول بها في المشروع. كما هو الحال مع المطورين البشريين، يعمل وكلاء Codex على النحو الأمثل عند تزويدهم ببيئات تطوير جيدة التهيئة، وإعدادات اختبار موثوقة، ووثائق واضحة.

تكشف رسالة النظام الأساسية لـ codex-1 أيضًا عن مجموعة صريحة من التعليمات التي تحكم سلوكه. على سبيل المثال، عند تعديل الملفات، يتم توجيه Codex بعدم إنشاء فروع جديدة، واستخدام git لتثبيت التغييرات (إعادة المحاولة عند فشل ما قبل التثبيت)، والتأكد من ترك شجرة العمل في حالة نظيفة. يؤكد على أنه سيتم تقييم الكود المثبت فقط وأنه لا ينبغي تعديل التثبيتات الموجودة.

مواصفات AGENTS.md مفصلة للغاية. نطاقها هو شجرة الدليل بأكملها التي تترسخ في موقعها، وتأخذ تعليماتها الأسبقية بناءً على عمق التداخل، على الرغم من أن طلبات المستخدم المباشرة يمكن أن تتجاوزها. توجيه رئيسي هو أنه إذا تضمن AGENTS.md فحوصات برمجية، فيجب على Codex بالتأكيد تشغيلها جميعًا والسعي للتحقق من نجاحها بعد جميع تغييرات الكود، حتى للتعديلات التي تبدو بسيطة مثل تحديثات الوثائق. تعليمات الاستشهاد أيضًا صارمة، وتتطلب الإشارة الدقيقة إلى مسارات الملفات ومخرجات الطرفية لأي ملفات تم تصفحها أو أوامر تم تنفيذها، مما يضمن مسار تدقيق واضحًا.

وضع Codex على المحك: الأداء والمعايير

تفيد OpenAI أن codex-1 يظهر أداءً قويًا في تقييمات البرمجة والمعايير الداخلية، حتى بدون تخصيص مكثف من خلال ملفات AGENTS.md أو هيكلة محددة. في معيار SWE-Bench Verified، أظهر codex-1 تقدمًا في دقة pass@k من 67% عند k=1 إلى 75% عند k=8، متجاوزًا o3-high (الذي سجل 70% عند k=8 على مجموعة فرعية مختلفة قليلاً). في مهام هندسة البرمجيات الداخلية (SWE) لـ OpenAI، وهي مجموعة من التحديات الداخلية الواقعية، حقق codex-1 دقة 70%، وهي أعلى بكثير من o1-high (25%)، وo4-mini-high (40%)، وo3-high (61%). أجريت هذه الاختبارات باستخدام codex-1 بطول سياق أقصى يبلغ 192 ألف رمز و"جهد استدلال" متوسط، مما يعكس الإعدادات المتاحة في المنتج.

البناء بثقة: السلامة، الثقة، والاعتبارات الأخلاقية

يتم إصدار Codex كمعاينة بحثية، بما يتماشى مع استراتيجية OpenAI للنشر التكراري. يتيح هذا النهج التعلم والتحسين بناءً على الاستخدام الواقعي. كانت الأمان والشفافية أمرًا بالغ الأهمية في تصميم Codex. القدرة للمستخدمين على التحقق من المخرجات من خلال الاستشهادات، سجلات الطرفية، ونتائج الاختبار هي حجر الزاوية في هذه الفلسفة - ضمان يصبح حيويًا بشكل متزايد مع معالجة نماذج الذكاء الاصطناعي لمهام البرمجة الأكثر تعقيدًا بشكل مستقل.

عند مواجهة عدم اليقين أو فشل الاختبارات، تم تصميم وكيل Codex للتواصل بشكل صريح بشأن هذه المشكلات، مما يمكّن المستخدمين من اتخاذ قرارات مستنيرة. ومع ذلك، تؤكد OpenAI أنه يظل من الضروري للمستخدمين مراجعة جميع الأكواد التي يولدها الوكيل والتحقق منها يدويًا قبل الدمج والتنفيذ.

معالجة احتمالية إساءة الاستخدام، خاصة في مجالات مثل تطوير البرامج الضارة، هو مصدر قلق حاسم. تم تدريب Codex على تحديد ورفض الطلبات التي تهدف إلى إنشاء برامج ضارة بدقة، مع الاستمرار في التمييز ودعم المهام المتقدمة المشروعة التي قد تتضمن تقنيات مماثلة (مثل هندسة نواة النظام منخفضة المستوى). تعزز أطر السياسات المحسنة والتقييمات الصارمة للسلامة، المفصلة في ملحق لبطاقة نظام o3، هذه الحدود.

يعمل الوكيل بالكامل داخل حاوية آمنة ومعزولة في السحابة. أثناء تنفيذ المهمة، يتم تعطيل الوصول إلى الإنترنت، مما يقصر التفاعلات على الكود المقدم صراحةً عبر مستودعات GitHub والتبعيات المثبتة مسبقًا التي يكوّنها المستخدم. هذا يعني أن الوكيل لا يمكنه الوصول إلى مواقع الويب الخارجية، واجهات برمجة التطبيقات (APIs)، أو الخدمات الأخرى، مما يقلل بشكل كبير من مخاطر الأمان.

لمسة إنسانية: التوافق مع تفضيلات وسير عمل المطورين

كان الهدف الأساسي أثناء تدريب codex-1 هو مواءمة مخرجاته بشكل وثيق مع تفضيلات ومعايير البرمجة البشرية. مقارنةً بـ OpenAI o3 للأغراض العامة، ينتج codex-1 باستمرار تصحيحات أنظف يسهل على البشر مراجعتها ويسهل دمجها في سير العمل القياسية. يتضح هذا من خلال عدة أمثلة للإصلاحات التي تم تطبيقها على مشاريع مفتوحة المصدر شائعة:

المشروع: Astropy (مكتبة فلك بايثون)

الخطأ: دالة separability_matrix حسبت بشكل غير صحيح قابلية الفصل لحالات CompoundModel المتداخلة. على سبيل المثال، إذا كان نموذج مركب مثل m.Linear1D(10) & m.Linear1D(5) متداخلًا داخل نموذج آخر، فإن المصفوفة الناتجة أشارت خطأً إلى تبعيات حيث لم تكن موجودة.
حل Codex:
تم إجراء تعديل مستهدف على دالة _cstack في الملف astropy/modeling/separable.py.
تعامل هذا التغيير بشكل صحيح مع أبعاد وقيم المصفوفة اليمنى عندما مثلت مصفوفة محسوبة مسبقًا (أي نموذج متداخل).
الاختبار: تم إضافة اختبار تراجع دقيق إلى الملف test_separable.py لتأكيد الإصلاح، مما يضمن أن المخرجات هي مصفوفة قابلية الفصل المتوقعة ذات الكتل القطرية للنماذج المتداخلة.
المقارنة: لوحظ أن هذا الإصلاح أكثر مباشرة وأقل إسهابًا من بديل محتمل من o3، والذي تضمن تعليقات توضيحية واسعة.

المشروع: Matplotlib (مكتبة رسم بياني بايثون)

الخطأ: مشكلة في mlab._spectral_helper تسببت في تصحيح غير صحيح للنافذة بسبب استدعاء np.abs() غير ضروري. أدى هذا إلى نتائج غير دقيقة للنوافذ ذات القيم السالبة (مثل نافذة flattop).
حل Codex:
تمت إزالة استدعاءات np.abs() من (np.abs(window)**2).sum() و np.abs(window).sum()**2.
تم تغييرها إلى (window.conjugate() * window).sum() و window.sum()**2 على التوالي.
يضمن هذا التعديل أن القياس يستخدم القيم الفعلية للنافذة، مما يحافظ على الطاقة بدقة.
الاختبار: تم إضافة اختبار جديد، test_psd_windowarray_negative، إلى الملف lib/matplotlib/tests/test_mlab.py للتحقق على وجه التحديد من هذا التصحيح باستخدام نافذة تحتوي على قيم سالبة.

المشروع: Django (إطار عمل ويب بايثون)

الخطأ: تعابير المدة فقط (مثل F('estimated_time') + datetime.timedelta(1)) فشلت على SQLite و MySQL، مما أدى إلى ظهور خطأ decimal.InvalidOperation. كان هذا بسبب مشكلات في كيفية تحويل قيم المدة.
حل Codex:
تم تحسين دالة convert_durationfield_value في الملف django/db/backends/base/operations.py للتعامل بقوة مع أنواع الإدخال المختلفة للمدة (مثل None، timedelta، string، و int).
تم تعديل تجميع الأطراف لـ DurationExpression في الملف django/db/models/expressions.py، مما يضمن تطبيق format_for_duration_arithmetic بشكل أكثر انتقائية، بشكل أساسي عند دمجها مع أنواع التاريخ/الوقت.
الاختبار: تم إضافة اختبار جديد، test_durationfield_only_expression، في الملف tests/expressions/tests.py للتحقق من صحة هذا الإصلاح.
المقارنة: تم وصف حل o3 لمشكلة Django هذه بأنه أكثر شمولاً في منطق فحص النوع والتحليل داخل convert_durationfield_value، مما يوفر نهجًا مفصلاً للغاية للتعامل مع تمثيلات السلسلة والأرقام المختلفة للمدد.

المشروع: Expensify (ReportUtils.ts - TypeScript)

المشكلة: أسماء غرف الأعضاء لم يتم تحديثها في شريط التنقل الأيسر (LHN) بعد مسح الذاكرة المؤقتة.
الحل المقترح من Codex (استنادًا إلى الاختلافات المقدمة المتعلقة بتخزين اسم التقرير مؤقتًا):
عدل اختلاف "Codex" دالة getCacheKey لتضمين policyName. يمكن لهذا التغيير جعل مفاتيح الذاكرة المؤقتة أكثر تحديدًا، مما قد يمنع التقادم إذا أثرت أسماء السياسات على عناوين الغرف.
اقتراح OpenAI o3 البديل:
اقترح اختلاف "OpenAI o3" حلاً هيكليًا أكثر لإبطال الذاكرة المؤقتة: ضمان مسح reportNameCache كلما تم تحديث ONYXKEYS.COLLECTION.POLICY. يعالج هذا مباشرة البيانات القديمة عن طريق تحديث الذاكرة المؤقتة بشكل استباقي عند تغيير معلومات السياسة الأساسية (التي يمكن أن تؤثر على أسماء الغرف).
رؤية: يسلط هذا المثال الضوء على كيف يمكن للذكاء الاصطناعي اقتراح استراتيجيات مختلفة - من تحسين مفاتيح الذاكرة المؤقتة إلى تنفيذ آليات إبطال أوسع - لمعالجة مثل هذه المشكلات.

توضح هذه الأمثلة مجتمعة قدرة Codex على فهم المشكلات المعقدة وتنفيذ حلول مستهدفة وفعالة، وغالبًا ما تتضمن حالات الاختبار الضرورية لضمان الصحة.

توسيع النطاق: تحديثات على Codex CLI

تكملةً للوكيل القائم على السحابة، قامت OpenAI أيضًا بتحديث Codex CLI، وهو وكيل برمجة خفيف الوزن ومفتوح المصدر يعمل مباشرة في الطرفية. أصبح الآن إصدار جديد وأصغر من codex-1، يُسمى codex-mini-latest (إصدار متخصص من o4-mini)، هو النموذج الافتراضي في Codex CLI. تم تحسينه لأسئلة وأجوبة وتحرير الكود بزمن استجابة منخفض، مع الاحتفاظ بقدرات قوية على اتباع التعليمات والأسلوب.

تم تبسيط ربط حساب مطور بـ Codex CLI أيضًا. بدلاً من إنشاء رمز API يدويًا، يمكن للمستخدمين الآن تسجيل الدخول باستخدام حساب ChatGPT الخاص بهم واختيار مؤسسة API الخاصة بهم، مع قيام CLI بمعالجة تكوين مفتاح API تلقائيًا. يمكن لمستخدمي Plus و Pro الذين يسجلون الدخول بهذه الطريقة أيضًا استرداد أرصدة API مجانية.

الوصول، التكلفة، والتطلعات: التوفر، التسعير، والقيود

يتم طرح Codex حاليًا لمستخدمي ChatGPT Pro و Enterprise و Team على مستوى العالم، ومن المتوقع دعم Plus و Edu قريبًا. سيكون الوصول الأولي سخيًا وبدون تكلفة إضافية لعدة أسابيع، مما يسمح للمستخدمين باستكشاف قدراته. بعد ذلك، ستقدم OpenAI وصولاً محدودًا بالمعدل وخيارات تسعير مرنة للاستخدام عند الطلب. بالنسبة للمطورين الذين يستخدمون codex-mini-latest عبر واجهة برمجة التطبيقات (API)، يبلغ سعره 1.50 دولار لكل مليون رمز إدخال و 6 دولارات لكل مليون رمز إخراج، مع خصم 75% على تخزين الطلبات مؤقتًا.

بصفته معاينة بحثية، يحتوي Codex على قيود. يفتقر حاليًا إلى ميزات مثل إدخالات الصور لتطوير الواجهة الأمامية والقدرة على تصحيح مسار الوكيل في منتصف المهمة. تفويض المهام إلى وكيل بعيد يقدم أيضًا زمن انتقال مقارنة بالتحرير التفاعلي، مما قد يتطلب بعض التعديل في سير العمل. تتصور OpenAI أن التفاعل مع وكلاء Codex سيزداد شبهًا بالتعاون غير المتزامن مع الزملاء البشريين.

الطريق إلى الأمام: مستقبل الذكاء الاصطناعي في هندسة البرمجيات مع Codex

تتخيل OpenAI مستقبلًا حيث يدفع المطورون العمل الذي يريدون امتلاكه ويفوضون الباقي لوكلاء ذكاء اصطناعي ذوي قدرات عالية، مما يؤدي إلى زيادة السرعة والإنتاجية. لتحقيق ذلك، يقومون ببناء مجموعة من أدوات Codex التي تدعم كلاً من التعاون في الوقت الفعلي والتفويض غير المتزامن. بينما أصبحت أدوات الاقتران بالذكاء الاصطناعي مثل Codex CLI معايير صناعية، يُنظر إلى سير عمل الوكلاء المتعدد غير المتزامن الذي قدمه Codex في ChatGPT على أنه المعيار الفعلي المستقبلي لإنتاج كود عالي الجودة.

في النهاية، من المتوقع أن تتقارب وضعتا التفاعل هاتان - الاقتران في الوقت الفعلي وتفويض المهام. سيتعاون المطورون مع وكلاء الذكاء الاصطناعي عبر بيئات التطوير المتكاملة (IDEs) وأدواتهم اليومية للأسئلة والأجوبة، والاقتراحات، وتفريغ المهام الأطول في سير عمل موحد. تشمل الخطط المستقبلية سير عمل وكلاء أكثر تفاعلية ومرونة، مما يسمح للمطورين بتقديم التوجيه في منتصف المهمة، والتعاون في استراتيجيات التنفيذ، وتلقي تحديثات التقدم الاستباقية. كما يتم التخطيط لعمليات دمج أعمق عبر أدوات مثل GitHub، Codex CLI، ChatGPT Desktop، متتبعات المشكلات، وأنظمة التكامل المستمر (CI).

هندسة البرمجيات هي واحدة من أولى الصناعات التي تشهد مكاسب كبيرة في الإنتاجية مدفوعة بالذكاء الاصطناعي، مما يفتح إمكانيات جديدة للأفراد والفرق الصغيرة. بينما تشعر OpenAI بالتفاؤل بشأن هذه التطورات، فإنها تتعاون أيضًا مع الشركاء لفهم الآثار الأوسع لتبني الوكلاء على نطاق واسع على سير عمل المطورين وتنمية المهارات عبر مجموعات سكانية متنوعة.

إطلاق ChatGPT Codex هو أكثر من مجرد أداة جديدة؛ إنه لمحة عن مستقبل يتعاون فيه الإبداع البشري والذكاء الاصطناعي بشكل أكثر سلاسة من أي وقت مضى لبناء الجيل القادم من البرامج. هذه مجرد البداية، والإمكانيات لما يمكن للمطورين بنائه باستخدام Codex واسعة ومثيرة.