واجهة برمجة تطبيقات Qwen3.6-Plus تتفوق على Claude في اختبارات الأداء الطرفية

موجز

تم إطلاق Qwen3.6-Plus رسميًا. يحقق 78.8% في SWE-bench Verified و 61.6% في Terminal-Bench 2.0، متجاوزًا بذلك Claude Opus 4.5. يحتوي على نافذة سياق بحجم مليون رمز، ومعلمة جديدة preserve_thinking لحلقات الوكيل، ويعمل مباشرة مع Claude Code و OpenClaw و Qwen Code عبر واجهة برمجة تطبيقات متوافقة مع OpenAI.

من الإصدار التجريبي إلى الإصدار الرسمي

إذا كنت قد اطلعت على دليلنا السابق حول معاينة Qwen 3.6 Plus على OpenRouter، فأنت تعلم بالفعل قدرات هذا النموذج. تم طرح المعاينة بهدوء في 30 مارس دون قائمة انتظار وإمكانية وصول مجانية عبر OpenRouter. في أول يومين له، عالج أكثر من 400 مليون رمز إكمال عبر ما يقرب من 400 ألف طلب.

يجلب الإصدار الرسمي النسخة الإنتاجية الكاملة. لم يعد مقتصرًا على المعاينة فقط. النموذج متاح الآن عبر Alibaba Cloud Model Studio بواجهة برمجة تطبيقات مستقرة، ووقت تشغيل مدعوم باتفاقية مستوى الخدمة (SLA)، ومعلمة API جديدة تجعله أكثر قدرة بشكل ملحوظ لمهام الوكيل متعددة الخطوات.

يغطي هذا الدليل ما تغير، وكيفية استدعاء واجهة برمجة التطبيقات بشكل صحيح، وكيفية اختبار تكاملك مع Apidog قبل النشر.

زر

ما هو Qwen3.6-Plus

Qwen3.6-Plus هو نموذج خليط من الخبراء مستضاف من فريق Qwen التابع لـ Alibaba. مثل سلسلة Qwen3.5، يستخدم تنشيطًا متفرقًا، مما يعني أن جزءًا صغيرًا فقط من المعلمات ينشط لكل رمز. والنتيجة هي أداء قوي بتكلفة حوسبة أقل من النموذج الكثيف ذي القدرة المماثلة.

المواصفات الرئيسية عند الإطلاق:

نافذة سياق بحجم مليون رمز افتراضيًا
استدلال إلزامي لسلسلة الأفكار (كما في المعاينة)
معلمة preserve_thinking جديدة للمهام الوكيلية
دعم أصلي متعدد الوسائط (الرؤية، الفيديو، فهم المستندات)
واجهة برمجة تطبيقات متوافقة مع OpenAI، واجهة برمجة تطبيقات متوافقة مع Anthropic، وواجهة برمجة تطبيقات OpenAI Responses

إصدارات أصغر مفتوحة المصدر قادمة خلال أيام. إذا كنت بحاجة إلى أوزان للاستضافة الذاتية، فهي في الطريق.

نتائج المعايير

وكلاء البرمجة

يتخلف Qwen3.6-Plus بفارق ضئيل عن Claude Opus 4.5 في معظم مهام SWE-bench، بينما يتفوق على كل نموذج في المقارنة في عمليات الطرفية.

يختبر Terminal-Bench 2.0 عمليات واجهة الأوامر الحقيقية: إدارة الملفات، التحكم في العمليات، وسير عمل الطرفية متعدد الخطوات تحت مهلة 3 ساعات مع 32 نواة CPU و 48 جيجابايت من ذاكرة الوصول العشوائي (RAM). يمثل تسجيل Qwen3.6-Plus لـ 61.6% مقابل 59.3% لـ Claude Opus 4.5 فجوة ذات مغزى في المهام التي ينفذها المطورون بالضبط.

الوكلاء العامون واستخدام الأدوات

المعيار	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

يختبر MCPMark استدعاءات أدوات GitHub MCP v0.30.3، مع استجابات Playwright مقطوعة عند 32 ألف رمز. التقدم بنسبة 48.2% مهم لأي شخص يبني على أدوات قائمة على MCP. يُظهر DeepPlanning بنسبة 41.5% مقابل 33.9% لـ Claude فجوة كبيرة في مهام التخطيط طويلة الأجل.

الاستدلال والمعرفة

المعيار	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA هو معيار استدلال علمي على مستوى الدراسات العليا. يقيس IFEval strict مدى التزام النموذج بتعليمات التنسيق والقيود الدقيقة. يتفوق Qwen3.6-Plus في كليهما، وهو أمر مهم للمخرجات المنظمة والمهام الوكيلية حيث يجب على النموذج اتباع تعليمات معقدة دون الانحراف.

متعدد الوسائط

Qwen3.6-Plus هو نموذج أصلي متعدد الوسائط. يتصدر العديد من معايير فهم المستندات، والفهم المكاني، واكتشاف الكائنات.

المعيار	Qwen3.6-Plus	ملاحظات
OmniDocBench 1.5	91.2%	الأعلى في الجدول
RefCOCO avg	93.5%	الأعلى في الجدول
We-Math	89.0%	الأعلى في الجدول
CountBench	97.6%	الأعلى في الجدول
OSWorld-Verified	62.5%	خلف Claude (66.3%)

يضع OSWorld-Verified، وهو معيار استخدام الحاسوب المكتبي، Claude Opus 4.5 في المقدمة بنسبة 66.3% مقابل 62.5% لـ Qwen3.6-Plus. في مهام فهم المستندات والتأسيس المكاني، يتصدر Qwen3.6-Plus.

كيفية استدعاء واجهة برمجة التطبيقات (API)

يتوفر Qwen3.6-Plus على Alibaba Cloud Model Studio. احصل على مفتاح API الخاص بك من modelstudio.alibabacloud.com.

ثلاثة عناوين URL أساسية إقليمية:

سنغافورة: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
بكين: https://dashscope.aliyuncs.com/compatible-mode/v1
فيرجينيا، الولايات المتحدة: https://dashscope-us.aliyuncs.com/compatible-mode/v1

استدعاء أساسي مع البث

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

معلمة preserve_thinking

احتفظت النسخة التجريبية بالاستدلال من الدور الحالي فقط. يضيف الإصدار الرسمي معلمة preserve_thinking.

عند تعيين preserve_thinking: true، يحتفظ النموذج بسلسلة الأفكار من جميع الأدوار السابقة في المحادثة. توصي Alibaba بذلك خصيصًا لسيناريوهات الوكيل. المنطق هو: يستفيد الوكيل الذي يعمل من خلال مهمة متعددة الخطوات من رؤية تفكيره السابق. يتخذ قرارات أفضل في الخطوة 5 عندما يتمكن من رؤية سبب اتخاذه للقرار في الخطوة 2.

يتم تعطيله افتراضيًا للتحكم في استخدام الرموز. قم بتشغيله لحلقات الوكيل.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # keep reasoning across all turns
 },
 stream=True
)

استخدم Qwen3.6-Plus مع Claude Code

تدعم واجهة برمجة تطبيقات Qwen بروتوكول Anthropic. يمكنك تشغيل Claude Code باستخدام Qwen3.6-Plus دون تغيير أي إعدادات لـ Claude Code بخلاف متغيرات البيئة.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

استخدم Qwen3.6-Plus مع OpenClaw

OpenClaw (المعروف سابقًا باسم Moltbot / Clawdbot) هو وكيل برمجة مفتوح المصدر ومستضاف ذاتيًا. قم بتثبيته ووجهه إلى Model Studio:

# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

عدّل ~/.openclaw/openclaw.json وادمج هذه الحقول (لا تقم بكتابة فوق الملف بأكمله):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

استخدم Qwen3.6-Plus مع Qwen Code

Qwen Code هو وكيل طرفية مفتوح المصدر خاص بشركة Alibaba، وقد تم بناؤه خصيصًا لسلسلة Qwen. يمنحك 1,000 استدعاء مجاني لواجهة برمجة التطبيقات يوميًا عند تسجيل الدخول باستخدام Qwen Code OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Type /auth to sign in and activate free tier

لماذا تغير preserve_thinking سلوك الوكيل

تتعامل معظم واجهات برمجة تطبيقات LLM مع كل دور بشكل مستقل. يولد النموذج إجابة، ويتم تجاهل الاستدلال، ويبدأ الدور التالي من جديد. بالنسبة للأسئلة والأجوبة البسيطة، هذا جيد. بالنسبة للوكلاء الذين ينفذون مهامًا من 10 إلى 20 خطوة، فإنه يخلق مشكلة: لا يمكن للنموذج رؤية سبب اتخاذه للقرارات السابقة، لذلك ينحرف.

تحافظ معلمة preserve_thinking على سلسلة الاستدلال الكاملة من جميع الأدوار السابقة مرئية عند إنشاء الاستجابة التالية. التأثير العملي: يمكن لوكيل يعمل من خلال مهمة معقدة على مستوى المستودع في الخطوة 8 رؤية تحليلاته من الخطوات 2 و 4 و 6. يتخذ قرارات أكثر اتساقًا وينتج تناقضات أقل.

تُظهر معايير Alibaba أن هذا يقلل من الاستدلال الزائد أيضًا. عندما لا يضطر النموذج إلى إعادة استنتاج السياق الذي أنشأه بالفعل، فإنه يستخدم عددًا أقل من الرموز لكل دور في المتوسط لسير العمل المعقد متعدد الخطوات.

استخدم هذا النمط لحلقات الوكيل:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# مثال: وكيل مراجعة الكود متعدد الخطوات
result = agent_step("حلل وحدة المصادقة بحثًا عن مشكلات أمنية.")
result = agent_step("الآن اقترح حلولًا لأهم 3 مشكلات وجدتها.")
result = agent_step("اكتب اختبارات للتحقق من كل إصلاح.")

بدون preserve_thinking، لا يعرف النموذج في الخطوة 3 المشكلات الثلاث التي حددها في الخطوة 1. بوجودها، تظل سلسلة الاستدلال سليمة.

ما هو الأفضل له

إصلاح الأخطاء على مستوى المستودع. إن SWE-bench Verified بنسبة 78.8% و SWE-bench Pro بنسبة 56.6% تنافسيان مع أي شيء متاح اليوم. إذا كنت تدير مسارات إصلاح أو مراجعة الكود الآلية، فإن Qwen3.6-Plus يستحق المقارنة بإعدادك الحالي.

أتمتة الطرفية. تجعل ريادة Terminal-Bench 2.0 النموذج الأقوى المتاح لسير العمل الكثيف على واجهة الأوامر. عمليات الملفات متعددة الخطوات، إدارة العمليات، خطوط بناء البرامج.

استدعاء أدوات MCP. تجعل نتيجة MCPMark بنسبة 48.2% (أفضل نتيجة) الخيار الأفضل حاليًا لتكامل الأدوات القائمة على MCP.

تحليل المستندات ذات السياق الطويل. تتعامل نافذة الرموز البالغة مليون رمز مع درجات LongBench v2 القوية مع مراجعات قاعدة الكود الكاملة، ومستندات المواصفات الكبيرة، وتحليل الملفات المتعددة في استدعاء واحد.

توليد كود الواجهة الأمامية. يمنح QwenWebBench الداخلي لفريق Qwen (تصنيف Elo، 7 فئات: تصميم الويب، تطبيقات الويب، الألعاب، SVG، تصور البيانات، الرسوم المتحركة، ثلاثي الأبعاد) Qwen3.6-Plus درجة 1501.7 مقابل 1517.9 لـ Claude Opus 4.5. تعادل فعال لجودة توليد الواجهة الأمامية.

متعدد اللغات. WMT24++ بنسبة 84.3% (الأعلى)، MAXIFE بنسبة 88.2% عبر 23 إعداد لغة. قوي عبر حالات الاستخدام غير الإنجليزية.

اختبار استدعاءات API لـ Qwen3.6-Plus باستخدام Apidog

نقطة النهاية متوافقة مع OpenAI، لذا يمكنك استيرادها مباشرة إلى Apidog واختبارها كأي واجهة برمجة تطبيقات أخرى.

لقطة شاشة لـ Apidog يختبر استدعاء API لـ Qwen3.6-Plus

قم بإعداد طلب POST إلى https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions. أضف مفتاح API الخاص بك كمتغير بيئة: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

اكتب تأكيدات الاستجابة للتحقق من البنية والمحتوى:

pm.test("Response contains choices", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

استخدم ميزة Smart Mock من Apidog لإنشاء استجابات اختبار أثناء التطوير. هذا يعني أنه يمكن اختبار كود تنسيق الوكيل الخاص بك دون استدعاء واجهة برمجة التطبيقات المباشرة في كل تشغيل، مما يوفر الرموز ويحافظ على سرعة دورات الاختبار.

إذا كنت تبني وكيلًا متعدد الأدوار، فأنشئ سيناريو اختبار في Apidog يربط طلبات متعددة معًا. تحقق من أن preserve_thinking يحمل الاستدلال عبر الأدوار عن طريق فحص بنية الاستجابة في كل خطوة قبل تشغيل الحلقة الكاملة في الإنتاج.

حمل Apidog مجانًا لإعداد هذه الاختبارات.

ما هو قادم لاحقًا

أكد فريق Qwen أن إصدارات أصغر مفتوحة المصدر سيتم شحنها خلال أيام. ستتبع هذه النمط الخاص بـ Qwen3.5: نماذج MoE متفرقة بأوزان Apache 2.0 عامة.

تتضمن خريطة الطريق أيضًا:

مهام على مستوى المستودع ذات أفق أطول، تستهدف حل المشكلات المعقدة بشكل متزايد في ملفات متعددة
تطوير مستمر لوكلاء متعددي الوسائط، مع وكلاء واجهة المستخدم الرسومية (GUI) والترميز المرئي كقدرات رئيسية، وليست ميزات جانبية

أصبحت إصدارات Qwen3.5 مفتوحة المصدر من بين النماذج المستضافة ذاتيًا الأكثر انتشارًا في غضون أسابيع من إصدارها. إذا اتبع Qwen3.6 النمط نفسه، فمن المرجح أن تصبح الإصدارات الأصغر هي الخيار الافتراضي لوكلاء البرمجة المستضافين ذاتيًا بعد وقت قصير من وصولها.

الخلاصة

يسد Qwen3.6-Plus الفجوة مع Claude Opus 4.5 في مهام البرمجة ويحقق تقدمًا واضحًا في عمليات الطرفية، واستدعاء أدوات MCP، والتخطيط طويل الأجل. نافذة السياق البالغة مليون رمز، وتوافق بروتوكول Anthropic، ومعلمة preserve_thinking لحلقات الوكيل تجعله خيارًا عمليًا لأنظمة الوكلاء الإنتاجية في الوقت الحالي.

كانت فترة المعاينة المجانية على OpenRouter طريقة مفيدة لتقييم النموذج. تجلب واجهة برمجة التطبيقات الرسمية الاستقرار، وتغطية SLA، والمعلمة الجديدة التي تركز على الوكيل والتي تجعل سير العمل متعدد الأدوار أكثر موثوقية.

يتعامل Apidog مع جانب الاختبار: استورد نقطة النهاية المتوافقة مع OpenAI، واكتب تأكيدات الاستجابة، ونفذ المحاكاة أثناء التطوير، وقم بتشغيل اختبارات الانحدار كلما قمت بتحديث النموذج أو ترقية إصدار API.

زر

الأسئلة الشائعة

ما الفرق بين Qwen3.6-Plus والنسخة التجريبية؟تم إطلاق النسخة التجريبية (qwen/qwen3.6-plus-preview) على OpenRouter في 30 مارس 2026. يضيف الإصدار الرسمي معلمة preserve_thinking، ووقت تشغيل مدعوم باتفاقية مستوى الخدمة (SLA)، ودعم Model Studio الكامل. كما سيتم إطلاق إصدارات أصغر مفتوحة المصدر.

ما هي preserve_thinking ومتى يجب أن أستخدمها؟افتراضيًا، يتم الاحتفاظ بالاستدلال من الدور الحالي فقط. عند تعيين preserve_thinking: true، يحتفظ النموذج بسلسلة الأفكار من جميع أدوار المحادثة السابقة. استخدمها لحلقات الوكيل متعددة الخطوات حيث يجب أن يوجه استدلال النموذج السابق الإجراء التالي.

كيف يقارن Qwen3.6-Plus بـ Claude Opus 4.5؟يتصدر Claude Opus 4.5 في SWE-bench Verified (80.9% مقابل 78.8%) و OSWorld-Verified (66.3% مقابل 62.5%). يتصدر Qwen3.6-Plus في Terminal-Bench 2.0 (61.6% مقابل 59.3%)، و MCPMark (48.2% مقابل 42.3%)، و DeepPlanning (41.5% مقابل 33.9%)، و GPQA (90.4% مقابل 87.0%).

هل يمكنني استخدام Qwen3.6-Plus مع Claude Code؟نعم. قم بتعيين ANTHROPIC_BASE_URL إلى نقطة نهاية Dashscope المتوافقة مع Anthropic، و ANTHROPIC_MODEL إلى qwen3.6-plus، و ANTHROPIC_AUTH_TOKEN إلى مفتاح API الخاص بك من Dashscope.

هل Qwen3.6-Plus مفتوح المصدر؟نموذج API المستضاف ليس مفتوح الأوزان. تم تأكيد إطلاق إصدارات أصغر بأوزان عامة خلال أيام.

كيف أحصل على وصول مجاني؟ثبت Qwen Code (npm install -g @qwen-code/qwen-code@latest)، ثم شغل qwen، ثم /auth. سجل الدخول باستخدام Qwen Code OAuth للحصول على 1,000 استدعاء مجاني لواجهة برمجة التطبيقات يوميًا لـ Qwen3.6-Plus.

ما هي نافذة السياق التي يدعمها؟مليون رمز افتراضيًا. استخدمت بعض المعايير في التقرير الرسمي 256 ألف رمز للمقارنة الموحدة، لكن الافتراضي في API هو مليون رمز.

كيف أختبر تكامل API قبل النشر؟استورد نقطة النهاية إلى Apidog، أضف مفتاح API الخاص بك كمتغير بيئة، واكتب تأكيدات الاستجابة، واستخدم Smart Mock للتطوير دون اتصال. ربط الطلبات في سيناريو اختبار للتحقق من سلوك الوكيل متعدد الأدوار من البداية إلى النهاية.