كيفية استخدام واجهة برمجة تطبيقات Kimi VL للتفكير مجانًا

نماذج اللغات البصرية (VLMs) قد أحدثت ثورة في قدرة الذكاء الاصطناعي على فهم والتفكير حول المحتوى المرئي. من بين هذه الابتكارات، يتميز نموذج كيمي VL للتفكير من Moonshot AI بخصائصه الرائعة، حيث يجمع بين قدرات التفكير المتقدمة مع كفاءة ملحوظة. ستوجهك هذه الدورة التعليمية لفهم قدرات كيمي VL وكيفية استخدامه مجانًا من خلال منصة OpenRouter.

مؤشرات أداء كيمي VL للتفكير

كيمي VL للتفكير (والذي يُطلق عليه رسميًا كيمي-VL-A3B-Thinking) هو نموذج متقدم للغة البصرية تم تطويره من قبل Moonshot AI. ما يجعل هذا النموذج مميزًا هو هيكله من نوع مزيج الخبراء (MoE) الذي يفعّل 2.8 مليار معلمة فقط في كل خطوة استدلال، بينما يحتوي على حوالي 16 مليار معلمة إجمالية. هذا يسمح له بتقديم تفكير متقدم مع حسابات فعالة نسبيًا.

تم تصميم كيمي VL للتفكير خصيصًا لمهام التفكير المتقدمة، وخاصة تلك التي تتطلب التفكير خطوة بخطوة والتحليل الرياضي للمدخلات البصرية. تم إنشاؤه من خلال الضبط الدقيق لنموذج كيمي VL الأساسي باستخدام تقنيات التعلم الخاضع للإشراف وسلاسل التفكير.

أهم ميزات نموذج كيمي VL للتفكير

نافذة سياق طويلة: تدعم حتى 128 ألف رمز، مما يسمح بإجراء محادثات متعددة الأدوار ومعالجة الوثائق الطويلة.
رؤية بدقة أصلية: تستخدم مشفر MoonViT لمعالجة المدخلات البصرية عالية الدقة مع تمييز تفصيلي ممتاز.
تفكير متقدم: قوية بشكل خاص في التفكير الرياضي البصري وحل المشكلات خطوة بخطوة.
حساب فعال: على الرغم من قدراته القوية، فإن النموذج يفعل فقط 2.8 مليار معلمة، مما يجعله أكثر وصولاً مقارنة بالبدائل الأكبر.
مصدر مفتوح: متاح تحت ترخيص MIT، مما يسمح بتطبيقات أكاديمية وتجارية واسعة.

أداء مؤشرات كيمي VL للتفكير

يظهر كيمي VL للتفكير أداءً مثيرًا للإعجاب عبر العديد من المؤشرات التحدي، وغالبًا ما يتفوق أو ينافس نماذج أكبر بكثير:

MathVision: يحصل على درجة 36.8 (Pass@1)، مقارنة بنماذج مثل Gemma-3-27B (35.5) ويقترب من Qwen2.5-VL-72B (38.1).
MathVista: يسجل 71.3 في المؤشر المصغر، متفوقًا على نماذج مثل GPT-4o-mini (56.7) وGemma-3-12B (56.4).
MMMU (فهم متعدد النماذج): يصل إلى 61.7 في مجموعة التحقق، مما يظهر قدرات قوية في المهام متعددة النماذج المعقدة.

لوضع هذه النتائج في منظورها، فإن أداء كيمي VL للتفكير هو أمر ملحوظ بالنظر إلى أنه يُفعل فقط 2.8 مليار معلمة، بينما يتنافس ضد نماذج تستخدم 7 مليارات أو 12 مليار أو حتى 70 مليار+ معلمة. هذا يجعله واحدًا من أكثر نماذج VLMs القادرة على التفكير فعالية المتاحة.

كيفية استخدام كيمي VL للتفكير مجانًا عبر OpenRouter

يوفر OpenRouter وسيلة مريحة للوصول إلى كيمي VL للتفكير دون الحاجة إلى نشر النموذج بنفسك. تتيح لك الطبقة المجانية التجربة مع النموذج دون أي تكلفة. إليك كيفية البدء:

الخطوة 1: إنشاء حساب OpenRouter

قم بزيارة موقع OpenRouter وسجل للحصول على حساب إذا لم يكن لديك واحد بالفعل.
بعد التسجيل، انتقل إلى إعدادات حسابك لإنشاء مفتاح API.
قم بتخزين مفتاح API هذا بأمان، حيث ستحتاج إليه لجميع استدعاءات API.

الخطوة 2: فهم هيكل API الخاص بـ OpenRouter

تم تصميم API الخاص بـ OpenRouter ليكون متوافقًا مع تنسيق API الخاص بـ OpenAI، مما يجعل من السهل دمجه إذا كنت بالفعل على دراية بخدمات OpenAI. الفروقات الرئيسية هي:

عنوان URL الأساسي: https://openrouter.ai/api/v1
اسم النموذج: moonshotai/kimi-vl-a3b-thinking:free
رؤوس إضافية اختيارية للتحليلات

الخطوة 3: إجراء أول استدعاء API الخاص بك

لمستخدمي Python، قم بإعداد بيئتك مع هذه التبعيات:

pip install openai requests pillow

لنبدأ بمثال أساسي باستخدام SDK الخاص بـ OpenAI، والذي يعد أبسط نهج:

from openai import OpenAI
from base64 import b64encode
from PIL import Image
import io

# Initialize the client with OpenRouter's base URL
client = OpenAI(
    base_url="<https://openrouter.ai/api/v1>",
    api_key="your_openrouter_api_key_here",
)

# Function to encode images
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return b64encode(image_file.read()).decode('utf-8')

# Load and encode your image
image_path = "path_to_your_image.jpg"
base64_image = encode_image(image_path)

# Create the API request
completion = client.chat.completions.create(
    extra_headers={
        "HTTP-Referer": "your_site_url",  # Optional for analytics
        "X-Title": "your_app_name",       # Optional for analytics
    },
    model="moonshotai/kimi-vl-a3b-thinking:free",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    }
                },
                {
                    "type": "text",
                    "text": "Please examine this mathematical problem and solve it step by step."
                }
            ]
        }
    ],
    max_tokens=1024
)

print(completion.choices[0].message.content)

إذا كنت تفضل استخدام استدعاءات API المباشرة بدون SDK:

import requests
import json
from base64 import b64encode

# Function to encode images
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return b64encode(image_file.read()).decode('utf-8')

# Load and encode your image
image_path = "path_to_your_image.jpg"
base64_image = encode_image(image_path)

# Create the API request
response = requests.post(
    url="<https://openrouter.ai/api/v1/chat/completions>",
    headers={
        "Authorization": "Bearer your_openrouter_api_key_here",
        "Content-Type": "application/json",
        "HTTP-Referer": "your_site_url",  # Optional for analytics
        "X-Title": "your_app_name",       # Optional for analytics
    },
    data=json.dumps({
        "model": "moonshotai/kimi-vl-a3b-thinking:free",
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "image_url": {
                            "url": f"data:image/jpeg;base64,{base64_image}"
                        }
                    },
                    {
                        "type": "text",
                        "text": "Please examine this mathematical problem and solve it step by step."
                    }
                ]
            }
        ],
        "max_tokens": 1024
    })
)

print(response.json()["choices"][0]["message"]["content"])

للحصول على استجابات طويلة أو تجربة مستخدم أفضل، قد ترغب في بث مخرجات النموذج:

from openai import OpenAI
from base64 import b64encode

client = OpenAI(
    base_url="<https://openrouter.ai/api/v1>",
    api_key="your_openrouter_api_key_here",
)

# Function to encode images
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return b64encode(image_file.read()).decode('utf-8')

# Load and encode your image
image_path = "path_to_your_image.jpg"
base64_image = encode_image(image_path)

# Create a streaming request
stream = client.chat.completions.create(
    model="moonshotai/kimi-vl-a3b-thinking:free",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    }
                },
                {
                    "type": "text",
                    "text": "Please examine this mathematical problem and solve it step by step."
                }
            ]
        }
    ],
    stream=True,
    max_tokens=1024
)

# Process the streaming response
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

اختبار واجهة برمجة التطبيقات الخاصة بكيمي VL للتفكير باستخدام Apidog

Apidog هو أداة شاملة لاختبار واجهات برمجة التطبيقات تسهل عملية التفاعل مع واجهات مثل كيمي VL للتفكير. ميزاته، مثل إدارة البيئة ومحاكاة السيناريو، تجعلها مثالية للمطورين. دعنا نرى كيفية استخدام Apidog لاختبار واجهة برمجة التطبيقات الخاصة بكيمي VL للتفكير.

button

إعداد Apidog

أولاً، قم بتنزيل وتثبيت Apidog من apidog.com. بمجرد التثبيت، أنشئ مشروعًا جديدًا وأضف نقطة نهاية واجهة برمجة تطبيقات كيمي VL للتفكير: https://openrouter.ai/api/v1/chat/completions.

تهيئة بيئتك

بعد ذلك، قم بإعداد بيئات مختلفة (مثل بيئة التطوير والإنتاج) في Apidog. عرّف متغيرات مثل مفتاح API الخاص بك وعنوان URL الأساسي للتبديل بين الإعدادات بسهولة. في Apidog، انتقل إلى علامة التبويب “البيئات” وأضف:

api_key: مفتاح واجهة برمجة التطبيقات الخاص بك في OpenRouter
base_url: https://openrouter.ai/api/v1

إنشاء طلب اختبار

الآن، قم بإنشاء طلب POST جديد في Apidog.

قم بتعيين عنوان URL إلى {{base_url}}/chat/completions، أضف الرؤوس الخاصة بك، وأدخل جسم JSON:

{
    "model": "quasar-alpha",
    "messages": [
        {"role": "user", "content": "اشرح الفرق بين let و const في JavaScript."}
    ],
    "max_tokens": 300
}

في قسم الرؤوس، أضف:

Authorization: Bearer {{api_key}}
Content-Type: application/json

تشغيل وتحليل الاختبار

أخيرًا، أرسل الطلب وحلل الاستجابة من خلال واجهة Apidog المرئية. يوفر Apidog تقارير مفصلة، بما في ذلك وقت الاستجابة ورمز الحالة واستخدام الرموز. يمكنك أيضًا حفظ هذا الطلب كسيناريو قابل لإعادة الاستخدام للاختبار في المستقبل.

تتيح لك قدرة Apidog على محاكاة السيناريوهات الواقعية وتوليد تقارير قابلة للتصدير أن تكون أداة قوية لتحري الخلل وتحسين تفاعلاتك مع واجهة برمجة التطبيقات الخاصة بكيمي VL للتفكير. دعنا نختتم مع بعض أفضل الممارسات.

button

تحسين التعليمات لكيمي VL للتفكير

يتفوق كيمي VL للتفكير في التفكير خطوة بخطوة، لذا هيكل تعليماتك للاستفادة من هذه القدرة:

كن واضحًا حول التفكير: اطلب من النموذج "التفكير خطوة بخطوة" أو "التفكير في هذه المشكلة بعناية".
مهمة واحدة في الوقت: للمشكلات المعقدة، قسمها إلى خطوات قابلة للإدارة بدلاً من طلب كل شيء دفعة واحدة.
قدم السياق: عند الضرورة، قدم معلومات خلفية قد تساعد النموذج في فهم المشكلة بشكل أفضل.
استخدم تعليمات واضحة: حدد بالضبط ما تريد من النموذج تحليله في الصورة.

الخاتمة

يمثل كيمي VL للتفكير إنجازًا مثيرًا للإعجاب في نماذج اللغات البصرية القوية والفعالة. لقدرتها على أداء التفكير المتقدم مع تفعيل 2.8 مليار معلمة فقط، فإنها متاحة لمجموعة أوسع من المستخدمين مقارنة بالنماذج الكبيرة التقليدية.

من خلال الاستفادة من الطبقة المجانية في OpenRouter، يمكنك تجربة هذه التكنولوجيا المتطورة دون حواجز تكلفة. سواء كنت تعمل على تطبيقات تعليمية أو تحليل بيانات أو توثيق تقني، يقدم كيمي VL للتفكير أداة قوية لفهم والتفكير حول المحتوى المرئي.

مع تطور راحتك مع النموذج، يمكنك استكشاف حالات استخدام أكثر تعقيدًا وإمكانية دمجها في التطبيقات الإنتاجية. تذكر أن الطبقة المجانية مثالية للتجربة، ولكن لحالات الاستخدام الإنتاجية ذات الحجم الكبير، قد ترغب في التفكير في الترقي إلى طبقة مدفوعة لضمان موثوقية أفضل وأداء أعلى.

ابدأ في استكشاف كيمي VL للتفكير اليوم واكتشف كيف يمكن أن تعزز قدرات التفكير البصرية المتقدمة مشاريعك!