ملاحظات على محاضرة أندريه كارباثي: البرمجيات تتغير (مجددًا)

عالم الذكاء الاصطناعي يتحرك بسرعة مذهلة. يبدو أن كل أسبوع يأتي بنموذج جديد، أو قدرة جديدة، أو نقاش جديد حول مستقبل البشرية. يتطلب اختراق هذه الضوضاء أصواتًا تتمتع بفهم تقني عميق ورؤية واضحة للصورة الأكبر. أندريه كارباثي، شخصية رائدة لها خبرة تأسيسية في كل من تسلا وOpenAI، هو أحد هذه الأصوات.

في حديثه الأخير في Y Combinator، الذي عنونه كارباثي بـ "البرمجيات تتغير (مرة أخرى)"، لا يقدم كارباثي مجرد تحديث، بل إطارًا كاملاً لفهم التحول الزلزالي الذي نمر به حاليًا. يجادل بأننا لا نشهد مجرد إنشاء أداة جديدة، بل فجر نموذج حوسبة جديد. هذا هو البرمجيات 3.0.

هذه التدوينة هي غوص عميق في الملاحظات والأفكار المستمدة من حديثه، حيث نفكك المفاهيم الأساسية ونستكشف آثارها العميقة. سنسافر عبر تصنيفه للبرمجيات، ونفهم لماذا يصف نموذج اللغة الكبير (LLM) بأنه نوع جديد من أنظمة التشغيل، ونستكشف النهج العملي "لبدلة الرجل الحديدي" لبناء منتجات الذكاء الاصطناعي اليوم، ونتطلع إلى مستقبل مبني لوكلاء الذكاء الاصطناعي.

💡

هل تريد أداة رائعة لاختبار واجهات برمجة التطبيقات (API Testing) تولد توثيقًا جميلًا لواجهات برمجة التطبيقات؟

هل تريد منصة متكاملة وشاملة لفريق المطورين لديك للعمل معًا بأقصى إنتاجية؟

Apidog يلبي جميع متطلباتك، ويحل محل Postman بسعر أقل بكثير!

button

عصور البرمجيات الثلاثة: تصنيف جديد

لفهم إلى أين نتجه، نحتاج أولاً إلى فهم أين كنا. يصنف كارباثي تاريخ البرمجيات بأناقة إلى ثلاثة عصور متميزة، وهو تصنيف يوضح طبيعة الثورة الحالية.

البرمجيات 1.0: عصر المنطق

هذه هي البرمجيات التي نعرفها جميعًا، أساس العالم الرقمي. البرمجيات 1.0 هي الكود التقليدي، المكتوب صراحة بواسطة مبرمجين بشريين لتنفيذ تعليمات محددة. إنها لغات C++ وجافا وبايثون التي تشغل كل شيء من متصفح الويب الخاص بك إلى قاعدة بيانات المعاملات في البنك. في حديثه، يشير كارباثي إلى كود C++ الأساسي في نظام القيادة الذاتية لسيارات تسلا كمثال رئيسي [00:04:49].

يُعرف هذا النموذج بدقته وتحكمه. يملي البشر المنطق خطوة بخطوة. قوته تكمن في قابليته للتنبؤ. ضعفه، مع ذلك، هو جموده. البرمجيات 1.0 تعاني من الغموض والبيانات غير المهيكلة. لا يمكنك بسهولة كتابة عبارات if/else لتحديد قطة في صورة بشكل موثوق أو التقاط مشاعر جملة. لذلك، كانت هناك حاجة لنهج جديد.

البرمجيات 2.0: عصر التعلم

ظهرت البرمجيات 2.0 مع صعود التعلم العميق والشبكات العصبية. هنا، يتحول النموذج بشكل كبير من كتابة الكود إلى تنظيم البيانات. بدلاً من تقديم تعليمات صريحة، يجمع المطورون مجموعات بيانات ضخمة ويستخدمونها "لتدريب" شبكة عصبية. "الكود" في هذا النموذج ليس منطقًا يمكن للبشر قراءته؛ بل هو ملايين أو مليارات الأوزان والانحيازات داخل الشبكة، والتي يتم ضبطها بواسطة مُحسِّن. يصبح المبرمج أشبه بالمعلم أو البستاني، يغذي النموذج بالبيانات ويشكل عملية تعلمه.

هذا النهج حرفياً "تجاوز" مكدس البرمجيات 1.0 في العديد من المجالات، خاصة تلك التي تتعامل مع الإدراك، مثل رؤية الكمبيوتر [00:05:26]. المهام التي كانت معقدة بشكل مستحيل لكتابة الكود يدويًا أصبحت قابلة للتحقيق. كان هذا عصر برامج التعرف على الصور، وأنظمة تحويل الكلام إلى نص، والترجمة الآلية التي عملت بالفعل. كانت قفزة هائلة، لكن الخطوة التالية ستغير طبيعة البرمجة نفسها.

البرمجيات 3.0: عصر المحادثة

هذا يقودنا إلى اليوم. البرمجيات 3.0 هي عالم نماذج اللغة الكبيرة. هذه النماذج، مثل GPT-4 أو Gemini، هي شبكات عصبية ضخمة تم تدريبها على جزء كبير من الإنترنت. إنها عادةً ما تكون ثابتة، كائنات تم تدريبها مسبقًا. الجزء الثوري هو كيف نتفاعل معها. كما يقول كارباثي، لدينا لغة برمجة جديدة: الإنجليزية [00:04:09].

تتم البرمجة في البرمجيات 3.0 من خلال موجهات اللغة الطبيعية. نوجه النموذج، نستعلم منه، ونسيطر على سلوكه ببساطة عن طريق التحدث إليه. هذه هي القفزة الأكثر أهمية في سهولة الوصول في تاريخ الحوسبة. إنها تحول كل شخص يمكنه التعبير عن فكرة إلى مبرمج محتمل، وهو مفهوم أطلق عليه كارباثي لاحقًا اسم "البرمجة بالمشاعر" (vibe coding).

نموذج اللغة الكبير كمنصة حوسبة جديدة

يجادل كارباثي بشكل مقنع بأن نموذج اللغة الكبير ليس مجرد برنامج ذكي؛ إنه نوع جديد من أجهزة الكمبيوتر، منصة جديدة بخصائصها الفريدة [00:06:10]. يستخدم عدة تشبيهات قوية لدعم حجته.

أولاً، يرى أن نماذج اللغة الكبيرة تتمتع بخصائص كل من المرفق العام (utility) ومصنع أشباه الموصلات (semiconductor fab). يشير تشبيه المرفق العام [00:06:35] إلى النفقات الرأسمالية الضخمة (capex) التي تتطلبها مختبرات مثل OpenAI وجوجل لتدريب هذه النماذج، والنفقات التشغيلية (opex) لتقديمها عبر واجهات برمجة تطبيقات مدفوعة بالاستخدام. مثل شبكة الكهرباء، تتطلب استثمارًا هائلاً وتحتاج إلى تقديمها بزمن استجابة منخفض، ووقت تشغيل عالٍ، وجودة متسقة [00:07:02]. يشير تشبيه المصنع [00:08:04] إلى البحث والتطوير العميق، المركزي، وغالبًا السري الذي يدخل في بناء هذه النماذج الأساسية، مما يخلق مشهدًا تهيمن عليه عدد قليل من اللاعبين الرئيسيين.

ثانياً، وربما الأهم، يقدم نموذج اللغة الكبير كنظام تشغيل جديد [00:09:07]. هذه نظرة ثاقبة عميقة. يعمل نموذج اللغة الكبير كنوع من نظام التشغيل البيولوجي الغريب الذي ينسق موارده الداخلية—معرفته الواسعة، قدرته على الاستدلال، نافذة السياق (كشكل من أشكال ذاكرة الوصول العشوائي)—لتنفيذ المهام المحددة بواسطة موجه المستخدم [00:10:09]. أدى هذا إلى ظهور نموذج حوسبة جديد يذكرنا بمشاركة الوقت في الستينيات [00:11:02]. معظمنا لا يقوم بتشغيل هذه النماذج الضخمة محليًا؛ نحن عملاء نتصل عبر شبكة بـ "حاسوب مركزي" قوي ومركزي في السحابة.

لقد قلب هذا أيضًا سيناريو انتشار التكنولوجيا. تاريخياً، كانت التقنيات القوية تنتقل تدريجياً من الحكومات والشركات الكبيرة إلى المستهلكين. نماذج اللغة الكبيرة، بشكل ملحوظ، فعلت العكس، حيث وصلت إلى مليارات المستهلكين عبر واجهات محادثة بديهية بين عشية وضحاها تقريبًا [00:12:42]، مما أجبر الشركات على السعي للحاق بالركب.

"بدلة الرجل الحديدي": البراغماتية في عصر الضجيج

في حين أن نماذج اللغة الكبيرة تمتلك قدرات خارقة للبشر، إلا أنها أيضًا معيبة بشدة. يقدم كارباثي نظرة رصينة على "علم نفسها"، واصفًا إياها بأنها "محاكاة عشوائية للأشخاص" [00:14:49]. ذكاؤها "غير متساوٍ" [00:16:20].

من ناحية، لديهم معرفة موسوعية وذاكرة شبه مثالية [00:15:30]. من ناحية أخرى، هم عرضة للهلوسة الواثقة، ويفتقرون إلى نموذج حقيقي للمعرفة الذاتية [00:16:07]، ويعانون من "فقدان الذاكرة التقدمي" (لا يتعلمون بشكل طبيعي من التفاعلات) [00:16:43]، وهم ساذجون بشكل خطير تجاه المخاطر الأمنية مثل حقن الموجهات (prompt injection) [00:17:38].

التحدي الهندسي الأساسي، بالتالي، هو تصميم أنظمة تتجاوز هذه العيوب مع الاستفادة من نقاط قوتها [00:18:03]. هذا يقود إلى ما يمكن اعتباره الرؤية الأكثر عملية وقيمة من الحديث: تشبيه "بدلة الرجل الحديدي" [00:28:22].

بدلاً من السعي لتحقيق "روبوتات الرجل الحديدي" المستقلة تمامًا التي تعمل بدون إشراف—وهو هدف لا يزال بعيد المنال ومحفوف بالمخاطر—يجب أن نركز على بناء "بدلات الرجل الحديدي". هذه تطبيقات تعزز القدرات البشرية، مع وجود الإنسان بشكل ثابت في الدائرة. سير العمل المثالي هو دورة توليد وتحقق محكمة وسريعة [00:22:13]. يقوم الذكاء الاصطناعي بتوليد المسودة الأولى—سواء كانت كودًا، أو بريدًا إلكترونيًا، أو تصميمًا—ويقوم الإنسان، بحكمه وسياقه المتفوقين، بالتحقق السريع، التعديل، والموافقة. كلما كانت هذه الدورة أسرع، زادت قوة التعزيز [00:22:19].

تعد تطبيقات نماذج اللغة الكبيرة الناجحة اليوم، مثل Cursor للبرمجة أو Perplexity للبحث، أمثلة ممتازة على ذلك. تتميز بإدارة سياق متطورة [00:19:24]، وتنسيق ذكي لاستدعاءات متعددة لنماذج اللغة الكبيرة [00:19:32]، والأهم من ذلك، واجهات مستخدم مصممة لسهولة المراجعة [00:19:44]. غالبًا ما تحتوي على "شريط تمرير الاستقلالية" [00:20:21]، مما يسمح للمستخدم بزيادة أو تقليل مساهمة الذكاء الاصطناعي بناءً على تعقيد المهمة وثقته في النظام. المفتاح هو إبقاء الذكاء الاصطناعي تحت السيطرة، ومنعه من توليد مخرجات هائلة وغير قابلة للإدارة [00:22:53] أو "الضياع في الغابة" [00:24:41].

الجميع مبرمج: صعود "البرمجة بالمشاعر"

النتيجة الأكثر تحويلاً للبرمجيات 3.0 هي الديمقراطية الجذرية للإبداع. يصك كارباثي مصطلحًا مبهجًا هو "البرمجة بالمشاعر" (vibe coding) [00:31:07] لوصف فعل البرمجة عبر اللغة الطبيعية. لا تحتاج إلى معرفة Swift لوصف "مشاعر" تطبيق iOS الذي تريد بناءه؛ ما عليك سوى وصفه، ويتولى نموذج اللغة الكبير بناء الجملة.

يفتح هذا الباب لعالم يمكن فيه لخبراء المجالات—الأطباء، المحامون، العلماء، الفنانون—بناء الأدوات التي يحتاجونها بدون خلفية هندسة برمجيات تقليدية. ومع ذلك، يشير كارباثي بذكاء إلى مشكلة "الميل الأخير". في حين يمكن توليد المنطق الأساسي من خلال "البرمجة بالمشاعر"، فإن إحياء تطبيق حقيقي يتضمن مهام "devops" فوضوية: إعداد المصادقة، دمج المدفوعات، النشر على خادم، والنقر عبر عدد لا يحصى من واجهات المستخدم الويب [00:32:30]. هذا العمل اليدوي، القائم على المتصفح، هو عنق الزجاجة الحالي، ويشير مباشرة إلى الحدود التالية: الوكلاء.

تمهيد الطريق للوكلاء: بناء ويب متوافق أصلاً مع نماذج اللغة الكبيرة

إذا أرادت نماذج اللغة الكبيرة أن تتطور من مساعدين مفيدين إلى وكلاء قادرين يمكنهم أداء مهام "الميل الأخير" هذه، فإن بنيتنا التحتية الرقمية تحتاج إلى التكيف. يجب أن نبدأ في البناء لنوع جديد من المستخدمين: وكيل الذكاء الاصطناعي [00:33:55]. هذا يعني جعل مواقعنا وخدماتنا أكثر قابلية للقراءة بواسطة الآلة.

يقترح كارباثي عدة أفكار ملموسة وقابلة للتنفيذ:

llm.txt: تمامًا كما يقدم robots.txt تعليمات لزواحف الويب، فإن ملف llm.txt المقترح سيوفر ملخصًا مباشرًا، منظمًا، بلغة طبيعية لموقع ويب أو نطاق لنموذج لغة كبير زائر [00:34:12]. إنه دليل تعليمات للذكاء الاصطناعي.
توثيق متوافق مع نماذج اللغة الكبيرة: يجب أن ينتقل التوثيق بعيدًا عن لقطات الشاشة والتخطيطات التي تركز على الإنسان نحو Markdown نظيف وبسيط يمكن لنموذج اللغة الكبير تحليله وفهمه بسهولة [00:34:51].
وثائق قابلة للتنفيذ: يجب أن تتطور التعليمات. بدلاً من إخبار الإنسان "انقر على زر 'إنشاء'"، يجب أن يوفر التوثيق أمر curl أو استدعاء واجهة برمجة التطبيقات (API) الذي يمكن للوكيل تنفيذه مباشرة لتحقيق نفس النتيجة [00:35:59].

نحتاج أيضًا إلى أدوات جديدة مصممة لهذا العصر، مثل أداة get.ingest التي ذكرها، والتي يمكنها تسطيح مستودع GitHub معقد إلى ملف نصي واحد ونظيف يمكن لنموذج اللغة الكبير استيعابه وتحليله بسهولة [00:36:33].

الخلاصة: احتضان التغيير

يقدم حديث أندريه كارباثي رؤية واضحة، منظمة، وملهمة للحاضر والمستقبل للبرمجيات. نحن في لحظة محورية، "وقت فريد" [00:38:16] حيث يتم إعادة تعريف طبيعة البرمجيات نفسها. الانتقال إلى البرمجيات 3.0 ليس مجرد تحول تكنولوجي؛ إنه تحول نموذجي سيمكن جيلًا جديدًا من المبدعين ويغير بشكل أساسي كيفية تفاعلنا مع العالم الرقمي. الرحلة المقبلة ستتطلب منا أن نكون بارعين في جميع النماذج، وأن نتبنى نموذج "بدلة الرجل الحديدي" للتعاون بين الإنسان والذكاء الاصطناعي، وأن نبدأ في بناء البنية التحتية التي ستمكن وكلاء الذكاء الاصطناعي في المستقبل.

هذا وقت فريد، ومثير، ومليء بالتحديات لتكون بانيًا. تعريف البرمجيات نفسه يتوسع، ومعه، تعريف من يمكن أن يكون مبرمجًا. التغيير هنا، وهو يحدث الآن.

💡

button