Kurz gesagt
Qwen3.5 ist Alibabas bahnbrechendes Vision-Sprachmodell mit 397 Milliarden Parametern und Mixture of Experts (MoE)-Architektur. Sie können es kostenlos über NVIDIAs GPU-beschleunigte Endpunkte nutzen, indem Sie sich für das NVIDIA Developer Program registrieren. Dieser Leitfaden führt Sie durch die Beschaffung Ihres API-Schlüssels, Ihre ersten Aufrufe und die Integration der multimodalen Funktionen von Qwen3.5 in Ihre Anwendungen.
Einführung
Alibabas Qwen3.5 stellt einen bedeutenden Fortschritt in der multimodalen KI dar. Dieses 397-Milliarden-Parameter-Modell kombiniert die Mixture of Experts (MoE)-Architektur mit Gated Delta Networks, was leistungsstarke Argumentationsfähigkeiten liefert, während die aktiven Parameter auf nur 17 Milliarden gehalten werden. Das Ergebnis ist ein Modell, das Bilder verstehen, Benutzeroberflächen navigieren und komplexe multimodale Aufgaben bewältigen kann, alles zugänglich über eine kostenlose API.
Das Beste daran? Sie können Qwen3.5 jetzt sofort kostenlos nutzen über NVIDIAs Entwicklerplattform. Egal, ob Sie KI-Agenten entwickeln, Anwendungen für visuelles Reasoning erstellen oder multimodale KI erforschen, dieser Leitfaden führt Sie durch jeden Schritt.
Was ist Qwen3.5 VLM?
Qwen3.5 ist Alibabas erstes natives Vision-Sprachmodell der Qwen3.5-Serie, das speziell für den Aufbau autonomer Agenten entwickelt wurde. Im Gegensatz zu früheren VLMs, die aus reinen Textmodellen adaptiert wurden, wurde Qwen3.5 von Grund auf für multimodales Reasoning und UI-Navigation konzipiert.

Schlüsselspezifikationen
| Spezifikation | Wert |
|---|---|
| Gesamtparameter | 397 Milliarden |
| Aktive Parameter | 17 Milliarden |
| Aktivierungsrate | 4,28% |
| Expertenanzahl | 512 Experten |
| Experten pro Token | 11 (10 weitergeleitet + 1 geteilt) |
| Eingabekontext | 256K (erweiterbar auf 1M) |
| Unterstützte Sprachen | Über 200 |
| Architektur | MoE + Gated Delta Networks |

Was Qwen3.5 besonders macht
Die Mixture of Experts (MoE)-Architektur bedeutet, dass für jede gegebene Eingabe nur eine Untermenge der Modellparameter aktiv ist. Dies macht das Modell recheneffizient und bewahrt gleichzeitig die Fähigkeit zu komplexem Reasoning über alle 397 Milliarden Parameter hinweg.
Native multimodale Agentenfähigkeiten heben Qwen3.5 von anderen VLMs ab:
- Versteht und navigiert durch Benutzeroberflächen
- Führt visuelles Reasoning auf mobilen und Web-Oberflächen durch
- Bewältigt komplexe Kodierungsaufgaben
- Betreibt Chat-Anwendungen mit multimodalen Verständnis
Ideale Anwendungsfälle
- Kodierung und Webentwicklung: Code schreiben und debuggen mit visuellem Kontext
- Visuelles Reasoning: Screenshots, Fotos und UI-Elemente analysieren
- Chat-Anwendungen: Konversations-KI mit multimodalen Verständnis aufbauen
- Komplexe Suche: Gleichzeitiges Suchen über Bilder und Text
- UI-Automatisierung: Autonom durch Oberflächen navigieren und interagieren
NVIDIA Developer Program: Holen Sie sich Ihren kostenlosen API-Schlüssel
NVIDIA bietet kostenlosen Zugang zu Qwen3.5 über seine GPU-beschleunigten Endpunkte. So fangen Sie an:
Schritt 1: Treten Sie dem NVIDIA Developer Program bei
- Besuchen Sie build.nvidia.com
- Klicken Sie auf Anmelden oder Konto erstellen
- Registrieren Sie sich für das NVIDIA Developer Program (kostenlos)
- Bestätigen Sie Ihre E-Mail-Adresse

Schritt 2: Holen Sie sich Ihren API-Schlüssel
- Nach dem Login navigieren Sie zu Ihren Kontoeinstellungen
- Suchen Sie API-Schlüssel oder NVIDIA API-Schlüssel
- Kopieren Sie Ihren API-Schlüssel (beginnt mit
nvapi-) - Speichern Sie ihn sicher (Sie benötigen ihn für die Authentifizierung)

Wichtig
Schritt 3: Testen Sie Ihren Zugriff
Sie können Qwen3.5 direkt in Ihrem Browser unter build.nvidia.com/qwen/qwen3.5-397b-a17b testen. So können Sie mit Prompts experimentieren und das Modell mit Ihren eigenen Daten evaluieren, bevor Sie Code schreiben.

Ihr erster Qwen3.5 API-Aufruf
Lassen Sie uns nun Ihren ersten API-Aufruf an Qwen3.5 machen. Die API ist mit dem OpenAI-Format kompatibel, was die Integration in bestehende Anwendungen erleichtert.
Basis-API-Aufruf
import requests
# Konfiguration
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY" # Ersetzen Sie dies durch Ihren API-Schlüssel
headers = {
"Authorization": f"Bearer {api_key}",
"Accept": "application/json",
}
# Payload - einfache reine Textanfrage
payload = {
"messages": [
{
"role": "user",
"content": "What are the key features of Qwen3.5 VLM?"
}
],
"model": "qwen/qwen3.5-397b-a17b",
"max_tokens": 1024,
"temperature": 0.7,
}
# Anfrage senden
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
# Antwort ausgeben
result = response.json()
print(result['choices'][0]['message']['content'])
Multimodale Anfragen stellen (mit Bildern)
Um die Vision-Fähigkeiten von Qwen3.5 zu nutzen, fügen Sie Bilddaten in Ihre Anfrage ein:
import requests
import base64
# Funktion zum Kodieren eines Bildes in Base64
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
# Bild kodieren
image_base64 = encode_image("screenshot.png")
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"
headers = {
"Authorization": f"Bearer {api_key}",
"Accept": "application/json",
}
# Multimodale Anfrage mit Bild
payload = {
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{image_base64}"}
},
{
"type": "text",
"text": "What do you see in this image? Describe the UI elements."
}
]
}
],
"model": "qwen/qwen3.5-397b-a17b",
"max_tokens": 1024,
}
response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])
Codebeispiele in Python und JavaScript
Python: Vollständiges Integrationsbeispiel
import os
import requests
from requests.exceptions import RequestException
class QwenClient:
"""Python-Client für die Qwen3.5 API"""
def __init__(self, api_key=None):
self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
self.model = "qwen/qwen3.5-397b-a17b"
def chat(self, message, system_prompt=None, **kwargs):
"""Sendet eine Chat-Nachricht an Qwen3.5"""
headers = {
"Authorization": f"Bearer {self.api_key}",
"Content-Type": "application/json"
}
messages = []
if system_prompt:
messages.append({"role": "system", "content": system_prompt})
messages.append({"role": "user", "content": message})
payload = {
"messages": messages,
"model": self.model,
"max_tokens": kwargs.get("max_tokens", 2048),
"temperature": kwargs.get("temperature", 0.7),
"top_p": kwargs.get("top_p", 0.9),
}
# Denkmodus aktivieren, falls angefordert
if kwargs.get("thinking", False):
payload["chat_template_kwargs"] = {"thinking": True}
try:
response = requests.post(
self.endpoint,
headers=headers,
json=payload,
timeout=kwargs.get("timeout", 60)
)
response.raise_for_status()
return response.json()
except RequestException as e:
return {"error": str(e)}
def chat_with_image(self, message, image_path, **kwargs):
"""Sendet eine Chat-Nachricht mit Bild an Qwen3.5"""
import base64
with open(image_path, "rb") as f:
image_base64 = base64.b64encode(f.read()).decode("utf-8")
headers = {
"Authorization": f"Bearer {self.api_key}",
"Content-Type": "application/json"
}
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
{"type": "text", "text": message}
]
}],
"model": self.model,
"max_tokens": kwargs.get("max_tokens", 2048),
"temperature": kwargs.get("temperature", 0.7),
}
response = requests.post(self.endpoint, headers=headers, json=payload)
response.raise_for_status()
return response.json()
# Anwendungsbeispiel
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")
# Nur-Text-Chat
result = client.chat("Explain Mixture of Experts architecture in simple terms")
print(result['choices'][0]['message']['content'])
# Multimodaler Chat
result = client.chat_with_image(
"What UI elements are in this screenshot?",
"screenshot.png"
)
print(result['choices'][0]['message']['content'])
JavaScript/Node.js: Vollständiges Integrationsbeispiel
const axios = require('axios');
class QwenClient {
constructor(apiKey) {
this.apiKey = apiKey;
this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
this.model = 'qwen/qwen3.5-397b-a17b';
}
async chat(message, options = {}) {
const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;
const messages = [];
if (systemPrompt) {
messages.push({ role: 'system', content: systemPrompt });
}
messages.push({ role: 'user', content: message });
const payload = {
messages,
model: this.model,
temperature,
max_tokens: maxTokens,
...(thinking && { chat_template_kwargs: { thinking: true } })
};
try {
const response = await axios.post(this.endpoint, payload, {
headers: {
'Authorization': `Bearer ${this.apiKey}`,
'Content-Type': 'application/json'
},
timeout: 60000
});
return response.data;
} catch (error) {
console.error('API Error:', error.response?.data || error.message);
throw error;
}
}
async chatWithImage(message, imageBase64, options = {}) {
const { temperature = 0.7, maxTokens = 2048 } = options;
const payload = {
messages: [{
role: 'user',
content: [
{ type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
{ type: 'text', text: message }
]
}],
model: this.model,
temperature,
max_tokens: maxTokens
};
const response = await axios.post(this.endpoint, payload, {
headers: {
'Authorization': `Bearer ${this.apiKey}`,
'Content-Type': 'application/json'
}
});
return response.data;
}
}
// Anwendung
const client = new QwenClient(process.env.NVIDIA_API_KEY);
// Text-Chat
const result = await client.chat('What is the advantage of MoE architecture?');
console.log(result.choices[0].message.content);
// Mit aktiviertem Denkmodus
const deepResult = await client.chat('Explain how reasoning works in LLMs', {
thinking: true
});
console.log(deepResult.choices[0].message.content);
Erweiterte Funktionen: Denkmodus und Werkzeugaufrufe
Denkmodus
Qwen3.5 unterstützt einen erweiterten "Denkmodus", der es dem Modell ermöglicht, seinen Denkprozess zu zeigen. Dies ist besonders nützlich für komplexe Problemlösungsaufgaben.
payload = {
"messages": [{"role": "user", "content": "Solve this step by step: If a train travels 120km in 2 hours, what is its speed?"}],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {"thinking": True},
"max_tokens": 4096,
}
response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])
Werkzeugaufrufe
Qwen3.5 unterstützt Funktionsaufrufe über OpenAI-kompatible Werkzeuge. Dies ermöglicht es Ihnen, agentenbasierte Anwendungen zu erstellen, die reale Aktionen ausführen können.
import json
# Werkzeuge definieren, die das Modell verwenden soll
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get current weather for a location",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "City name"}
},
"required": ["location"]
}
}
}
]
payload = {
"messages": [
{"role": "user", "content": "What's the weather like in Tokyo?"}
],
"model": "qwen/qwen3.5-397b-a17b",
"tools": tools,
"tool_choice": "auto"
}
response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
# Prüfen, ob das Modell ein Werkzeug aufrufen möchte
if 'tool_calls' in result['choices'][0]['message']:
tool_call = result['choices'][0]['message']['tool_calls'][0]
print(f"Modell möchte aufrufen: {tool_call['function']['name']}")
print(f"Argumente: {tool_call['function']['arguments']}")
Ratenbegrenzungen und Preise verstehen
Aktueller kostenloser Tarif (NVIDIA Developer Program)
| Funktion | Limit |
|---|---|
| API-Zugriff | Kostenlos bei Registrierung |
| GPU-beschleunigte Endpunkte | Inbegriffen |
| Browser-Tests | Unbegrenzt |
| Ratenbegrenzungen | Im Entwickler-Dashboard prüfen |
Was das für Sie bedeutet
- Keine Kreditkarte erforderlich: Registrieren Sie sich einfach für das kostenlose NVIDIA Developer Program
- GPU-beschleunigt: Anfragen laufen auf NVIDIA Blackwell GPUs
- Produktionsbereit: Dieselben Endpunkte werden für Produktions-Workloads verwendet
Skalierung für die Produktion
Wenn Sie bereit sind, über den kostenlosen Tarif hinauszuwachsen:
- NVIDIA NIM: Bereitstellung von containerisierten Modellen überall (Cloud, On-Premises, Hybrid)
- NeMo: Das Modell für Ihren spezifischen Bereich anpassen
- Enterprise-Support: Kontaktieren Sie NVIDIA für dedizierte Infrastruktur
Produktionsbereitstellung mit NVIDIA NIM
NVIDIA NIM (NVIDIA Inference Microservices) erleichtert die Überführung von Qwen3.5 von der Entwicklung in die Produktion.

Was ist NIM?
NIM stellt vorgefertigte, optimierte Container für die KI-Inferenz bereit. Jeder NIM-Mikroservice enthält:
- Das Modell mit Leistungsoptimierungen
- Standardisierte APIs (OpenAI-kompatibel)
- Bereitstellungsflexibilität (Cloud, On-Premises, Edge)
Qwen3.5 mit NIM bereitstellen
# Den Qwen3.5 NIM-Container ziehen
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest
# Den Container ausführen
docker run --gpus all --rm -p 8000:8000 \
-e NVIDIA_API_KEY=$NVIDIA_API_KEY \
nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest
Ihr Modell läuft nun lokal unter http://localhost:8000/v1/chat/completions.
Vorteile von NIM
- Bereitstellung überall: Lokal, in der Cloud oder hybrid ausführen
- Optimierte Leistung: Abgestimmt auf NVIDIA GPU-Inferenz
- Konsistente APIs: OpenAI-kompatible Schnittstelle
- Skalierbar: Nahtlose Skalierung von der Entwicklung zur Produktion
Anpassung mit NVIDIA NeMo
Für domänenspezifische Anwendungen können Sie Qwen3.5 mit NVIDIA NeMo feinabstimmen.
Funktionen des NeMo Frameworks
- Fine-Tuning mit hohem Durchsatz: PyTorch-natives Training
- LoRA-Unterstützung: Speichereffiziente Anpassung
- Multiknoten-Training: Slurm- und Kubernetes-Unterstützung
- Hugging Face Integration: Direktes Training auf bestehenden Checkpoints
Beispiel: Feinabstimmung für medizinisches VQA
NVIDIA bietet ein technisches Tutorial zur Feinabstimmung von Qwen3.5 auf radiologischen Datensätzen für medizinisches Visual Question Answering. Dies zeigt, wie das Modell für spezialisierte Domänen wie das Gesundheitswesen angepasst werden kann.
Fazit
Qwen3.5 stellt eine aufregende Möglichkeit dar, ein hochmodernes multimodales KI-Modell kostenlos über NVIDIAs Entwicklerplattform zu nutzen. Mit seiner 397B-Parameter MoE-Architektur, nativen Vision-Fähigkeiten und kostenlosem API-Zugang ist es eine ausgezeichnete Wahl für:
- Entwicklung multimodaler KI-Agenten
- Entwicklung von Anwendungen für visuelles Reasoning
- Erstellung von Kodierungsassistenten mit visuellem Kontext
- Automatisierung von UI-Navigationsaufgaben
Der Einstieg ist einfach: Registrieren Sie sich für das NVIDIA Developer Program, holen Sie sich Ihren API-Schlüssel und beginnen Sie mit der Entwicklung.
Wenn Sie Anwendungen entwickeln, die Qwen3.5 oder andere KI-APIs integrieren, bietet Apidog die benötigte Testinfrastruktur. Testen Sie Ihre API-Integrationen, validieren Sie Antworten, verwalten Sie Umgebungsvariablen und automatisieren Sie Ihre Testabläufe mit der umfassenden Plattform von Apidog.
Häufig gestellte Fragen (FAQ)
Ist Qwen3.5 wirklich kostenlos nutzbar?
Ja, NVIDIA bietet kostenlosen Zugang zu den GPU-beschleunigten Endpunkten von Qwen3.5 über sein Developer Program. Es ist keine Kreditkarte erforderlich. Registrieren Sie sich einfach unter build.nvidia.com, um Ihren API-Schlüssel zu erhalten.
Was unterscheidet Qwen3.5 von anderen VLMs?
Qwen3.5 wurde speziell für autonome Agenten entwickelt und nicht von einem reinen Textmodell adaptiert. Seine Mixture of Experts-Architektur (insgesamt 397 Mrd., 17 Mrd. aktiv) bietet leistungsstarke Argumentationsfähigkeiten und bleibt dabei recheneffizient. Es ist besonders gut in UI-Navigations- und visuellem Reasoning-Aufgaben.
Kann ich Qwen3.5 für kommerzielle Projekte verwenden?
Überprüfen Sie die aktuellen Lizenzbedingungen auf der NVIDIA-Plattform. Für den Produktionseinsatz sollten Sie NVIDIA NIM für die Bereitstellung in Betracht ziehen oder NVIDIA bezüglich Enterprise-Optionen kontaktieren.
Was ist der Unterschied zwischen dem kostenlosen Tarif und NIM?
Der kostenlose Tarif (Developer Program) verwendet von NVIDIA gehostete Endpunkte. NIM ermöglicht es Ihnen, das Modell selbst mithilfe von Containern bereitzustellen, sei es On-Premises, in Ihrer Cloud oder in Hybridumgebungen. NIM ist für Bereitstellungen im Produktionsmaßstab konzipiert.
Wie gehe ich mit Ratenbegrenzungen um?
Der kostenlose Tarif unterliegt bestimmten Ratenbegrenzungen. Für höhere Limits sollten Sie ein Upgrade auf den Produktionszugang über NVIDIA NIM in Betracht ziehen oder NVIDIA bezüglich Enterprise-Optionen kontaktieren.
Kann ich Qwen3.5 feinabstimmen?
Ja! Das NVIDIA NeMo Framework bietet Tools zur Feinabstimmung von Qwen3.5 auf Ihre domänenspezifischen Daten. Dazu gehören LoRA für eine speichereffiziente Anpassung und Multiknoten-Unterstützung für großangelegtes Training.
