كيفية تعديل الفيديو بالذكاء الاصطناعي باستخدام هايبر فريمز

Ashley Innocent

Ashley Innocent

17 أبريل 2026

كيفية تعديل الفيديو بالذكاء الاصطناعي باستخدام هايبر فريمز

Apidog للمؤسسات

النشر على الخوادم المحلية

SSO و RBAC

متوافق مع SOC 2

استكشف Apidog للمؤسسات

ملخص سريع

يمكن لوكلاء الذكاء الاصطناعي كتابة التعليمات البرمجية، واستدعاء واجهات برمجة التطبيقات (APIs)، وتشغيل مهام سير عمل متعددة الخطوات. حتى الآن، كانت هناك قدرة واحدة لا تزال تفلت منهم: تعديل الفيديو. تستخدم الأدوات الاحترافية مثل After Effects و DaVinci Resolve جداول زمنية متعددة الطبقات ورسوم بيانية للمشاهد بتنسيق JSON لم يتم تدريب نماذج اللغات الكبيرة (LLMs) عليها. مشروع HeyGen الجديد مفتوح المصدر، **HyperFrames**، يقلب هذا النهج. يسمح لوكلاء الذكاء الاصطناعي بإنشاء الفيديو باستخدام HTML و CSS و JavaScript، ثم يعرض النتيجة إلى MP4 أو MOV أو WebM. يمكنك تثبيته كمهارة لـ Claude Code بأمر واحد، ويصبح وكيلك محرر فيديو.

مقدمة

الفيديو هو أكثر تنسيقات الاتصال جاذبية على الويب. كل وسيط آخر يمكن لوكيل الذكاء الاصطناعي إنتاجه (نص، تعليمات برمجية، صور، رسوم بيانية) له سلسلة أدوات واضحة. الفيديو لم يكن كذلك.

يمكنك توجيه نموذج لإنشاء مقطع كامل باستخدام Sora أو Veo أو Runway، ولكن لهذا النهج قيود. تحصل على فيديو متجانس واحد من موجه. لا يمكنك تركيبه. لا يمكنك التكرار على الرسوم المتحركة أو تراكب رسوم متحركة معينة للعلامة التجارية. لا يمكنك أن تخبر الوكيل "أعد المشهد 3 بتلاشي أبطأ".

أطلقت HeyGen مشروع HyperFrames في 17 أبريل 2026 لسد هذه الفجوة. بدلاً من تعليم الوكلاء برامج الفيديو التقليدية، أعطت الوكلاء تنسيقًا يعرفونه بالفعل: HTML. يشرح هذا الدليل كيفية عمله، ولماذا يكون هذا النهج منطقيًا، وكيفية إعداده حتى يتمكن وكيلك الخاص من تعديل الفيديو.

إذا كنت تقوم بإنشاء مهام سير عمل وكيل تعتمد على واجهة برمجة التطبيقات (API) وتنتج فيديو، فسترغب أيضًا في اختبار طبقة التنسيق. سنغطي كيف يتناسب Apidog في النهاية.

زر

لماذا لم يتمكن وكلاء الذكاء الاصطناعي من تعديل الفيديو من قبل

لم يتم بناء أدوات تحرير الفيديو التقليدية للوكلاء. لقد بنيت للبشر الذين ينقرون على الجداول الزمنية.

ثلاثة حواجز محددة:

واجهات المستخدم القائمة على الجدول الزمني لا تتوافق مع التعليمات البرمجية. يقوم After Effects و Premiere و DaVinci Resolve بتخزين المشاريع كأنماط ثنائية خاصة أو رسوم بيانية للمشاهد بتنسيق JSON متداخلة بشكل عميق. حتى لو تمكن الوكيل من قراءة هذه الملفات، فإن المساحة الدلالية ضيقة. لا توجد تقريبًا بيانات تدريب لأوزان النموذج على هذه التنسيقات.

تتطلب الرسوم المتحركة تفكيرًا بصريًا. يتم عادةً تنفيذ رسوم الأطر الرئيسية (Keyframing animations)، ومنحنيات التسهيل (easing curves)، وتركيب الطبقات (layer compositing) بالعين. لا يرى الوكلاء نافذة معاينة. إنهم بحاجة إلى تجريد يعتمد على النص أولاً للتفكير في الحركة.

تفترض الأدوات وجود مشغل بشري. تعيش مسارات العرض (Render pipelines)، وأنظمة بيئة المكونات الإضافية (plugin ecosystems)، واختيارات برامج الترميز (codec choices) كلها خلف قوائم واجهة المستخدم. تعمل أتمتة هذه العمليات من خلال البرامج النصية لحالات محدودة (ExtendScript في After Effects، على سبيل المثال)، لكن واجهات برمجة التطبيقات (APIs) ضيقة وهشة.

النتيجة: يمكن للوكلاء كتابة برنامج نصي لاستدعاء ffmpeg، وربط المقاطع معًا، وتراكب النص بمرشحات أساسية. أي شيء يتجاوز ذلك يتطلب إنسانًا.

رؤية HTML للفيديو

لاحظ فريق HeyGen شيئًا مختلفًا. تم تدريب نماذج اللغات الكبيرة على مليارات الصفحات من HTML و CSS و JavaScript. لقد رأوا مئات الآلاف من رسوم GSAP المتحركة، وتراكيب SVG، وتجارب Canvas، وملفات Lottie. الويب هو أكبر وسيط إبداعي منفرد في بيانات تدريبهم.

عرض توضيحي لميزة HyperFrames

عندما تطلب من نموذج رائد إنتاج رسوم متحركة غنية بصريًا، فإنه يكتب HTML بطلاقة. إنه يعرف كيفية:

جميع البدائيات المرئية التي يحتاجها المحرر موجودة بالفعل في المتصفح. القطعة المفقودة كانت تحويل جدول زمني لمشاهد HTML إلى ملف فيديو معروض.

هذا ما يفعله HyperFrames. الاسم يقول ذلك: HTML يصبح إطارات فيديو. HyperFrames.

كيف يعمل HyperFrames

يضيف HyperFrames مجموعة صغيرة من السمات data- إلى HTML القياسي. تحدد هذه السمات الجدول الزمني للفيديو. كل شيء آخر هو رمز ويب عادي.

السمات الأساسية:

السمة الغرض
data-composition-id معرف فريد لتكوين الفيديو
data-width / data-height دقة الإخراج بالبكسل
data-start وقت بدء المشهد بالثواني
data-duration مدة المشهد بالثواني
data-track-index ترتيب الطبقات للمشاهد المتداخلة

يكتب الوكيل ملف HTML عاديًا. يقرأ HyperFrames سمات البيانات، ويشغل الصفحة في متصفح بلا واجهة (headless browser)، ويلتقط الإطارات بمعدل الإطارات المستهدف، ويقوم بترميز الإخراج باستخدام FFmpeg.

هذا كل شيء. لا يوجد DSL جديد. لا يوجد رسم بياني للمشهد. لا يوجد محرر إطارات رئيسية. تعيش الرسوم المتحركة في جداول زمنية GSAP أو رسوم متحركة CSS، وهو بالضبط الكود الذي ينتجه النموذج بالفعل.

مثال بسيط

إليك تركيبة فيديو مدتها 5 ثوانٍ في أقل من 70 سطرًا من HTML. مشهدان: بطاقة عنوان تتلاشى للداخل، ثم تتلاشى بشكل متقاطع مع شاشة ختامية.

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <script src="https://cdn.jsdelivr.net/npm/gsap@3.14.2/dist/gsap.min.js"></script>
  <style>
    body { margin:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
    .scene { position:absolute; inset:0; width:1920px; height:1080px; overflow:hidden; background:#0D1B2A; }
    #scene2 { z-index:2; opacity:0; }
    .s1 { display:flex; flex-direction:column; justify-content:center; padding:120px 160px; gap:20px; }
    .s2 { display:flex; flex-direction:column; justify-content:center; align-items:center; padding:100px 160px; gap:32px; }
  </style>
</head>
<body>
  <div id="root" data-composition-id="hyperframes-intro"
       data-width="1920" data-height="1080" data-start="0" data-duration="5">
    <div id="scene1" class="scene">
      <div class="s1">
        <div class="s1-title">HTML is Video</div>
        <div class="s1-sub">Compose. Animate. Render.</div>
      </div>
    </div>

    <div id="scene2" class="scene">
      <div class="s2-title">Start composing.</div>
    </div>
  </div>
  <script>
    window.__timelines = window.__timelines || {};
    const tl = gsap.timeline({ paused: true });

    // Scene 1: title entrance
    tl.from(".s1-title", { x:-40, opacity:0, duration:0.5, ease:"power3.out" }, 0.25);
    tl.from(".s1-sub", { y:15, opacity:0, duration:0.4, ease:"power2.out" }, 0.5);

    // Blur crossfade transition
    const T = 2.2;
    tl.to("#scene1", { filter:"blur(8px)", scale:1.03, opacity:0, duration:0.35, ease:"power2.inOut" }, T);
    tl.fromTo("#scene2",
      { filter:"blur(8px)", scale:0.97, opacity:0 },
      { filter:"blur(0px)", scale:1, opacity:1, duration:0.35, ease:"power2.inOut" }, T + 0.08);

    window.__timelines["hyperframes-intro"] = tl;
  </script>
</body>
</html>

شيئان يجب ملاحظتهما:

  1. منطق الرسوم المتحركة هو GSAP بحت. أي نموذج رأى دروس GSAP يمكنه كتابة جداول زمنية كهذه.
  2. النفقات العامة لـ HyperFrames ضئيلة. عدد قليل من سمات data- على العنصر الجذر. لا شيء آخر.

اعرض هذا الملف وستحصل على MP4 بدقة 1920x1080 للرسوم المتحركة. غير النص، غير الألوان، بدل الخطوط، أضف شعارًا: الملف بأكمله هو HTML عادي.

ما يمكن للوكيل استخدامه بالفعل

نظرًا لأن مسار العرض هو متصفح حقيقي، فإن أي تقنية ويب تعمل:

لا توجد أغلفة، ولا بنية مكونات إضافية، ولا إطار عمل للتعلم. يستخدم الوكيل ما يعرفه بالفعل.

كيفية منح وكيلك إمكانية تحرير الفيديو بأمر واحد

يتم شحن HyperFrames كمهارة لـ Claude Code. إذا كنت تستخدم Claude Code، فإن التثبيت هو أمر npm واحد.

npx skills add heygen-com/hyperframes

هذا يجلب المهارة من مستودع HeyGen على GitHub، ويثبت سلسلة الأدوات، ويسجل قدرة تحرير الفيديو مع Claude Code.

بعد التثبيت، وجه وكيلك بشكل طبيعي:

Build me a 10-second product explainer video for a new API.
Start with a dark gradient background, animate the product name
sliding up from the bottom with a fade, then cut to three
bullet points with icons, end on a call-to-action card.

يكتب الوكيل HTML، ويشغل معاينة محلية، ويعرض ملف MP4 النهائي. لا توجد مفاتيح API. لا توجد خدمات خارجية. كل شيء يعمل على جهازك.

الإعداد بدون Claude Code

HyperFrames مستقل عن أي إطار عمل. يمكنك استدعاؤه من أي وكيل يمكنه تشغيل أوامر shell وقراءة الملفات.

git clone https://github.com/heygen-com/hyperframes
cd hyperframes
npm install

اعرض ملف تكوين:

npx hyperframes render my-video.html --output my-video.mp4

معاينة محلية:

npx hyperframes preview my-video.html

يفتح أمر المعاينة نافذة متصفح حيث يمكنك تصفح الجدول الزمني والتحقق من دقة الإطارات إطارًا بإطار قبل الالتزام بالعرض الكامل.

ما يتيحه هذا للمطورين

تفتح بعض حالات الاستخدام على الفور.

التسويق الآلي للمنتجات. يمكن لوكيلك سحب ملاحظات الإصدار، وإنشاء HTML مشهدًا تلو الآخر، وشحن العرض إلى شبكة توصيل المحتوى (CDN) الخاصة بك. يحصل كل إصدار على فيديو دون أن يلمس إنسان جدولًا زمنيًا.

استجابات فيديو مخصصة. تقوم Webhooks الخاصة بواجهة برمجة التطبيقات بتشغيل وكيل يعرض مقطعًا مخصصًا لكل حدث مستخدم. مقاطع فيديو ترحيبية، إيصالات، احتفالات بالمعالم، يتم إنشاؤها جميعًا عند الطلب.

سرد القصص بالبيانات. أرسل المقاييس إلى وكيل. يقوم بإنشاء تصورات D3 مغلفة بمشاهد HyperFrames. الناتج هو عرض إرشادي مصحوب بتعليق صوتي للوحة معلوماتك، يتم تحديثه تلقائيًا كل ربع سنة.

لقطات B-roll ديناميكية للبودكاست أو المحتوى الطويل. يقرأ وكيل نصًا، وينشئ رسومًا متحركة توضيحية لكل نقطة رئيسية، ويقوم بتراكبها فوق الصوت.

مقاطع فيديو وثائق API. قم بتحليل مواصفات OpenAPI الخاصة بك، وإنشاء إرشادات نقطة نهاية مع رسوم بيانية متحركة للطلب/الاستجابة، وتصديرها كمقاطع قابلة للمشاركة.

اختبار تنسيق الوكيل باستخدام Apidog

يتعامل HyperFrames مع خطوة العرض. كل شيء في الأعلى هو تنسيق: حلقة الوكيل، استدعاءات الأدوات، طلبات API لنموذج اللغة الكبير (LLM)، والمنطق الذي يقرر الفيديو الذي سيتم إنتاجه من أي إدخال.

هذا هو المكان الذي تتعطل فيه الأمور في الإنتاج. حمولات الأدوات المشوهة، طلبات API التي انتهت مهلتها، مراجع tool_use_id غير الصحيحة، أو مخططات الرسائل غير المتطابقة كلها توقف مسار الفيديو قبل عرض إطار واحد.

Apidog يوفر لك بيئة اختبار للأجزاء التي لا يغطيها HyperFrames:

محاكاة نقاط نهاية LLM. أنشئ نقطة نهاية Claude أو OpenAI وهمية في Apidog بنفس المخطط الذي يتوقعه وكيلك تمامًا. اختبر كيف يتفاعل مسار عملك مع الاستجابات المشوهة أو المتأخرة قبل أن تبدأ تكاليف API الحقيقية.

التحقق من صحة حمولات استخدام الأداة. إذا كان وكيلك يستدعي واجهات برمجة تطبيقات خارجية (لاسترجاع الأصول، أو البحث عن لقطات مخزنة، أو جلب مجموعات العلامات التجارية)، فقم بإعداد نقاط النهاية هذه في Apidog وربطها بسيناريوهات الاختبار. تأكد من أن بنية استدعاء أداة الوكيل تتطابق مع واجهة برمجة التطبيقات الخاصة بك قبل تشغيلها من البداية إلى النهاية.

تتبع استهلاك الرمز المميز. يستخدم Claude Opus 4.7 أداة تقسيم الرموز الجديدة التي تنتج ما يصل إلى 35% رموزًا أكثر من Opus 4.6. تركيبة الفيديو الغنية بـ CSS و 200 سطر من JavaScript ليست صغيرة. يساعدك تتبع الاستخدام في Apidog على تحديد حجم مطالباتك قبل أن تفاجئك التكاليف.

تصحيح أخطاء تدفقات الوكيل متعددة الأدوار. يتطلب العرض الكامل للفيديو غالبًا 5-10 دورات LLM (تخطيط الفيديو، صياغة المشاهد، مراجعة التوقيت، إصلاح الرسوم المتحركة، الانتهاء). يسمح لك Apidog بإعادة تشغيل المحادثة بالضبط للعثور على النقطة التي انحرف فيها الوكيل عن المسار.

زر

الحجة الفلسفية

يقدم فريق HeyGen ادعاء أقوى من "HTML هو تنسيق مناسب للفيديو الذي تم إنشاؤه بواسطة الوكيل". إنهم يعتقدون أن HTML هو التنسيق الصحيح لمستقبل الفيديو، انتهى.

المنطق صامد. الفيديو التقليدي محجوز داخل تنسيقات خاصة تتحكم فيها Adobe و Blackmagic وعدد قليل من بائعي برامج الترميز. HTML مفتوح، موحد، قابل للإصدار، قابل للبحث، وقابل للتحرير باستخدام كل أداة نصية على وجه الأرض.

إذا أصبح الفيديو القائم على HTML هو تنسيق التبادل، تصبح مقاطع الفيديو:

لا شيء من هذا نظري. كل واحدة من هذه الخصائص تعمل بالفعل في المتصفح. HyperFrames هو الجسر الذي يأخذ المحتوى الأصلي للمتصفح ويجعله مصدر فيديو صالحًا.

قيود يجب معرفتها

HyperFrames هو الإصدار 1. بعض القيود الحقيقية:

لا شيء من هذه يعتبر معطلًا للصفقة، لكن خطط لها إذا كنت تبني مسار إنتاج.

قائمة التحقق للبدء

إذا كنت ترغب في تجربة HyperFrames الآن:

الخلاصة

تمكن وكلاء الذكاء الاصطناعي من كتابة التعليمات البرمجية لسنوات. حتى الآن، كان تحرير الفيديو هو المجال الإبداعي الرئيسي الأخير الذي كانوا يحتاجون فيه إلى تدخل بشري. يزيل HyperFrames هذا الاعتماد من خلال مقابلة الوكلاء حيث يعملون بالفعل: HTML و CSS و JavaScript.

النهج بسيط بما يكفي لوصفه في جملة واحدة ومرن بما يكفي لإنتاج رسوم متحركة بجودة البث. إذا كنت تبني أي شيء يحتاج إلى الفيديو كمخرج (أتمتة التسويق، المحتوى المخصص، سرد البيانات، التوثيق المدفوع بالوكيل)، فإن HyperFrames ينتمي إلى مجموعتك التقنية.

بالنسبة لطبقة واجهة برمجة التطبيقات والتنسيق التي تحيط بها، اختبر محادثات وكيلك، واستدعاءات الأدوات، وطلبات LLM باستخدام Apidog قبل التوسع. طلبات API الفاشلة لا تُعرض إلى MP4.

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات