TL;DR
Qwen3.5 est le modèle vision-langage révolutionnaire d'Alibaba de 397 milliards de paramètres, doté d'une architecture de type Mixture of Experts (MoE). Vous pouvez y accéder **gratuitement** via les endpoints accélérés par GPU de NVIDIA en vous inscrivant au Programme Développeur NVIDIA. Ce guide vous montrera comment obtenir votre clé API, effectuer vos premiers appels et intégrer les capacités multimodales de Qwen3.5 dans vos applications.
Introduction
Qwen3.5 d'Alibaba représente un bond significatif dans l'IA multimodale. Ce modèle de 397 milliards de paramètres combine une architecture de type Mixture of Experts (MoE) avec des Gated Delta Networks, offrant de puissantes capacités de raisonnement tout en maintenant les paramètres actifs à seulement 17 milliards. Le résultat est un modèle capable de comprendre des images, de naviguer dans les interfaces utilisateur et de gérer des tâches multimodales complexes, le tout accessible via une API gratuite.
Le meilleur dans tout ça ? **Vous pouvez commencer à utiliser Qwen3.5 gratuitement dès maintenant** via la plateforme développeur de NVIDIA. Que vous construisiez des agents IA, développiez des applications de raisonnement visuel ou exploriez l'IA multimodale, ce guide vous accompagnera à chaque étape.
Qu'est-ce que Qwen3.5 VLM ?
Qwen3.5 est le premier modèle vision-langage natif d'Alibaba de la série Qwen3.5, conçu spécifiquement pour la construction d'agents autonomes. Contrairement aux VLM précédents qui étaient adaptés de modèles textuels uniquement, Qwen3.5 a été construit dès le départ pour le raisonnement multimodal et la navigation d'interface utilisateur.

Spécifications Clés
| Spécification | Valeur |
|---|---|
| Paramètres Totaux | 397 milliards |
| Paramètres Actifs | 17 milliards |
| Taux d'Activation | 4.28% |
| Nombre d'Experts | 512 experts |
| Experts par Jeton | 11 (10 acheminés + 1 partagé) |
| Contexte d'Entrée | 256K (extensible à 1M) |
| Langues Prises en Charge | 200+ |
| Architecture | MoE + Gated Delta Networks |

Ce qui rend Qwen3.5 spécial
L'architecture **Mixture of Experts (MoE)** signifie que seule une partie des paramètres du modèle est active pour une entrée donnée. Cela rend le modèle efficace en termes de calcul tout en maintenant la capacité de raisonnement complexe sur l'ensemble des 397 milliards de paramètres.
Les **Capacités d'Agent Multimodal NATIVES** distinguent Qwen3.5 des autres VLM :
- Comprend et navigue dans les interfaces utilisateur
- Effectue du raisonnement visuel sur les interfaces mobiles et web
- Gère des tâches de codage complexes
- Alimente les applications de chat avec une compréhension multimodale
Cas d'utilisation Idéaux
- **Codage et Développement Web** : Écrivez et déboguez du code avec un contexte visuel
- **Raisonnement Visuel** : Analysez des captures d'écran, des photos et des éléments d'interface utilisateur
- **Applications de Chat** : Créez une IA conversationnelle avec une compréhension multimodale
- **Recherche Complexe** : Effectuez des recherches simultanément sur des images et du texte
- **Automatisation de l'Interface Utilisateur** : Naviguez et interagissez avec les interfaces de manière autonome
Programme Développeur NVIDIA : Obtenez Votre Clé API Gratuite
NVIDIA offre un accès gratuit à Qwen3.5 via ses endpoints accélérés par GPU. Voici comment commencer :
Étape 1 : Rejoignez le Programme Développeur NVIDIA
- Visitez build.nvidia.com
- Cliquez sur **Se connecter** ou **Créer un compte**
- Inscrivez-vous au **Programme Développeur NVIDIA** (gratuit)
- Vérifiez votre adresse e-mail

Étape 2 : Obtenez Votre Clé API
- Après vous être connecté, accédez aux paramètres de votre compte
- Trouvez **Clés API** ou **Clé API NVIDIA**
- Copiez votre clé API (commence par
nvapi-) - Stockez-la en toute sécurité (vous en aurez besoin pour l'authentification)

Important
Étape 3 : Testez Votre Accès
Vous pouvez tester Qwen3.5 directement dans votre navigateur sur build.nvidia.com/qwen/qwen3.5-397b-a17b. Cela vous permet d'expérimenter avec des requêtes et d'évaluer le modèle avec vos propres données avant d'écrire du code.

Votre Premier Appel API à Qwen3.5
Maintenant, effectuons votre premier appel API à Qwen3.5. L'API est compatible avec le format d'OpenAI, ce qui facilite son intégration dans les applications existantes.
Appel API Basique
import requests
# Configuration
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY" # Replace with your API key
headers = {
"Authorization": f"Bearer {api_key}",
"Accept": "application/json",
}
# Payload - simple text-only request
payload = {
"messages": [
{
"role": "user",
"content": "What are the key features of Qwen3.5 VLM?"
}
],
"model": "qwen/qwen3.5-397b-a17b",
"max_tokens": 1024,
"temperature": 0.7,
}
# Make the request
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
# Print the response
result = response.json()
print(result['choices'][0]['message']['content'])
Effectuer des Requêtes Multimodales (Avec Images)
Pour utiliser les capacités de vision de Qwen3.5, incluez les données d'image dans votre requête :
import requests
import base64
# Function to encode image to base64
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
# Encode your image
image_base64 = encode_image("screenshot.png")
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"
headers = {
"Authorization": f"Bearer {api_key}",
"Accept": "application/json",
}
# Multimodal request with image
payload = {
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{image_base64}"}
},
{
"type": "text",
"text": "What do you see in this image? Describe the UI elements."
}
]
}
],
"model": "qwen/qwen3.5-397b-a17b",
"max_tokens": 1024,
}
response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])
Exemples de Code en Python et JavaScript
Python : Exemple d'Intégration Complète
import os
import requests
from requests.exceptions import RequestException
class QwenClient:
"""Python client for Qwen3.5 API"""
def __init__(self, api_key=None):
self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
self.model = "qwen/qwen3.5-397b-a17b"
def chat(self, message, system_prompt=None, **kwargs):
"""Send a chat message to Qwen3.5"""
headers = {
"Authorization": f"Bearer {self.api_key}",
"Content-Type": "application/json"
}
messages = []
if system_prompt:
messages.append({"role": "system", "content": system_prompt})
messages.append({"role": "user", "content": message})
payload = {
"messages": messages,
"model": self.model,
"max_tokens": kwargs.get("max_tokens", 2048),
"temperature": kwargs.get("temperature", 0.7),
"top_p": kwargs.get("top_p", 0.9),
}
# Enable thinking mode if requested
if kwargs.get("thinking", False):
payload["chat_template_kwargs"] = {"thinking": True}
try:
response = requests.post(
self.endpoint,
headers=headers,
json=payload,
timeout=kwargs.get("timeout", 60)
)
response.raise_for_status()
return response.json()
except RequestException as e:
return {"error": str(e)}
def chat_with_image(self, message, image_path, **kwargs):
"""Send a chat message with image to Qwen3.5"""
import base64
with open(image_path, "rb") as f:
image_base64 = base64.b64encode(f.read()).decode("utf-8")
headers = {
"Authorization": f"Bearer {self.api_key}",
"Content-Type": "application/json"
}
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
{"type": "text", "text": message}
]
}],
"model": self.model,
"max_tokens": kwargs.get("max_tokens", 2048),
"temperature": kwargs.get("temperature", 0.7),
}
response = requests.post(self.endpoint, headers=headers, json=payload)
response.raise_for_status()
return response.json()
# Exemple d'utilisation
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")
# Chat textuel uniquement
result = client.chat("Explain Mixture of Experts architecture in simple terms")
print(result['choices'][0]['message']['content'])
# Chat multimodal
result = client.chat_with_image(
"What UI elements are in this screenshot?",
"screenshot.png"
)
print(result['choices'][0]['message']['content'])
JavaScript/Node.js : Exemple d'Intégration Complète
const axios = require('axios');
class QwenClient {
constructor(apiKey) {
this.apiKey = apiKey;
this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
this.model = 'qwen/qwen3.5-397b-a17b';
}
async chat(message, options = {}) {
const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;
const messages = [];
if (systemPrompt) {
messages.push({ role: 'system', content: systemPrompt });
}
messages.push({ role: 'user', content: message });
const payload = {
messages,
model: this.model,
temperature,
max_tokens: maxTokens,
...(thinking && { chat_template_kwargs: { thinking: true } })
};
try {
const response = await axios.post(this.endpoint, payload, {
headers: {
'Authorization': `Bearer ${this.apiKey}`,
'Content-Type': 'application/json'
},
timeout: 60000
});
return response.data;
} catch (error) {
console.error('API Error:', error.response?.data || error.message);
throw error;
}
}
async chatWithImage(message, imageBase64, options = {}) {
const { temperature = 0.7, maxTokens = 2048 } = options;
const payload = {
messages: [{
role: 'user',
content: [
{ type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
{ type: 'text', text: message }
]
}],
model: this.model,
temperature,
max_tokens: maxTokens
};
const response = await axios.post(this.endpoint, payload, {
headers: {
'Authorization': `Bearer ${this.apiKey}`,
'Content-Type': 'application/json'
}
});
return response.data;
}
}
// Utilisation
const client = new QwenClient(process.env.NVIDIA_API_KEY);
// Chat textuel
const result = await client.chat('What is the advantage of MoE architecture?');
console.log(result.choices[0].message.content);
// Avec le mode de réflexion activé
const deepResult = await client.chat('Explain how reasoning works in LLMs', {
thinking: true
});
console.log(deepResult.choices[0].message.content);
Fonctionnalités Avancées : Mode Réflexion et Appel d'Outils
Mode Réflexion
Qwen3.5 prend en charge un mode "réflexion" avancé qui permet au modèle de montrer son processus de raisonnement. Ceci est particulièrement utile pour les tâches complexes de résolution de problèmes.
payload = {
"messages": [{"role": "user", "content": "Solve this step by step: If a train travels 120km in 2 hours, what is its speed?"}],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {"thinking": True},
"max_tokens": 4096,
}
response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])
Appel d'Outils
Qwen3.5 prend en charge l'appel de fonctions via des outils compatibles OpenAI. Cela vous permet de créer des applications agentiques capables d'exécuter des actions réelles.
import json
# Define tools for the model to use
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get current weather for a location",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "City name"}
},
"required": ["location"]
}
}
}
]
payload = {
"messages": [
{"role": "user", "content": "What's the weather like in Tokyo?"}
],
"model": "qwen/qwen3.5-397b-a17b",
"tools": tools,
"tool_choice": "auto"
}
response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
# Vérifier si le modèle veut appeler un outil
if 'tool_calls' in result['choices'][0]['message']:
tool_call = result['choices'][0]['message']['tool_calls'][0]
print(f"Le modèle veut appeler : {tool_call['function']['name']}")
print(f"Arguments : {tool_call['function']['arguments']}")
Comprendre les Limites de Débit et la Tarification
Niveau Gratuit Actuel (Programme Développeur NVIDIA)
| Fonctionnalité | Limite |
|---|---|
| Accès API | Gratuit avec inscription |
| Endpoints Accélérés par GPU | Inclus |
| Test via Navigateur | Illimité |
| Limites de Débit | Consulter le tableau de bord développeur |
Ce que cela signifie pour vous
- **Pas de carte de crédit requise** : Il suffit de s'inscrire au Programme Développeur NVIDIA gratuit
- **Accéléré par GPU** : Les requêtes s'exécutent sur des GPU NVIDIA Blackwell
- **Prêt pour la production** : Les mêmes endpoints sont utilisés pour les charges de travail en production
Passage à la Production
Lorsque vous êtes prêt à aller au-delà du niveau gratuit :
- **NVIDIA NIM** : Déployez des modèles conteneurisés partout (cloud, sur site, hybride)
- **NeMo** : Personnalisez le modèle pour votre domaine spécifique
- **Support Entreprise** : Contactez NVIDIA pour une infrastructure dédiée
Déploiement en Production avec NVIDIA NIM
NVIDIA NIM (NVIDIA Inference Microservices) facilite le passage de Qwen3.5 du développement à la production.

Qu'est-ce que NIM ?
NIM fournit des conteneurs pré-construits et optimisés pour l'inférence IA. Chaque microservice NIM comprend :
- Le modèle avec des optimisations de performance
- Des API standardisées (compatibles OpenAI)
- Une flexibilité de déploiement (cloud, sur site, edge)
Déploiement de Qwen3.5 avec NIM
# Pull the Qwen3.5 NIM container
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest
# Run the container
docker run --gpus all --rm -p 8000:8000 \
-e NVIDIA_API_KEY=$NVIDIA_API_KEY \
nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest
Votre modèle fonctionne maintenant localement à l'adresse http://localhost:8000/v1/chat/completions.
Avantages de NIM
- **Déploiement partout** : Exécutez sur site, dans le cloud ou en hybride
- **Performances optimisées** : Optimisé pour l'inférence GPU NVIDIA
- **API cohérentes** : Interface compatible OpenAI
- **Scalable** : Passez du développement à la production en toute fluidité
Personnalisation avec NVIDIA NeMo
Pour les applications spécifiques à un domaine, vous pouvez affiner Qwen3.5 en utilisant NVIDIA NeMo.
Capacités du Framework NeMo
- **Fine-tuning à haut débit** : Entraînement natif PyTorch
- **Support LoRA** : Personnalisation économe en mémoire
- **Entraînement multinœuds** : Support Slurm et Kubernetes
- **Intégration Hugging Face** : Entraînement direct sur les checkpoints existants
Exemple : Fine-tuning pour le VQA Médical
NVIDIA propose un tutoriel technique pour l'affinage de Qwen3.5 sur des ensembles de données radiologiques pour le Visual Question Answering médical. Cela démontre comment adapter le modèle à des domaines spécialisés comme la santé.
Conclusion
Qwen3.5 représente une opportunité passionnante d'utiliser un modèle d'IA multimodal de pointe gratuitement via la plateforme développeur de NVIDIA. Avec son architecture MoE de 397 milliards de paramètres, ses capacités de vision natives et son accès API gratuit, c'est un excellent choix pour :
- La création d'agents d'IA multimodaux
- Le développement d'applications de raisonnement visuel
- La création d'assistants de codage avec contexte visuel
- L'automatisation des tâches de navigation d'interface utilisateur
Démarrer est simple : inscrivez-vous au Programme Développeur NVIDIA, obtenez votre clé API et commencez à construire.
Si vous développez des applications qui s'intègrent à Qwen3.5 ou à d'autres API d'IA, **Apidog** fournit l'infrastructure de test dont vous avez besoin. Testez vos intégrations d'API, validez les réponses, gérez les variables d'environnement et automatisez vos flux de travail de test avec la plateforme complète d'Apidog.
FAQ
Qwen3.5 est-il vraiment gratuit à utiliser ?
Oui, NVIDIA offre un accès gratuit aux endpoints accélérés par GPU de Qwen3.5 via son Programme Développeur. Aucune carte de crédit n'est requise. Il suffit de s'inscrire sur build.nvidia.com pour obtenir votre clé API.
Qu'est-ce qui distingue Qwen3.5 des autres VLM ?
Qwen3.5 a été construit spécifiquement pour les agents autonomes, et non adapté d'un modèle textuel uniquement. Son architecture Mixture of Experts (397 milliards au total, 17 milliards actifs) offre un raisonnement puissant tout en étant efficace en termes de calcul. Il est particulièrement performant pour la navigation d'interface utilisateur et les tâches de raisonnement visuel.
Puis-je utiliser Qwen3.5 pour des projets commerciaux ?
Vérifiez les conditions de licence actuelles sur la plateforme de NVIDIA. Pour une utilisation en production, envisagez NVIDIA NIM pour le déploiement ou contactez NVIDIA pour les options d'entreprise.
Quelle est la différence entre le niveau gratuit et NIM ?
Le niveau gratuit (Programme Développeur) utilise les endpoints hébergés par NVIDIA. NIM vous permet de déployer le modèle vous-même à l'aide de conteneurs, que ce soit sur site, dans votre cloud ou dans des environnements hybrides. NIM est conçu pour les déploiements à l'échelle de la production.
Comment gérer la limitation de débit ?
Le niveau gratuit a certaines limites de débit. Pour des limites plus élevées, envisagez de passer à l'accès en production via NVIDIA NIM ou de contacter NVIDIA pour les options d'entreprise.
Puis-je affiner Qwen3.5 ?
Oui ! Le framework NVIDIA NeMo fournit des outils pour affiner Qwen3.5 sur vos données spécifiques à un domaine. Cela inclut LoRA pour une personnalisation économe en mémoire et le support multinœuds pour l'entraînement à grande échelle.
