Comment utiliser l'API Qwen3.5 gratuitement avec NVIDIA ?

TL;DR

Qwen3.5 est le modèle vision-langage révolutionnaire d'Alibaba de 397 milliards de paramètres, doté d'une architecture de type Mixture of Experts (MoE). Vous pouvez y accéder **gratuitement** via les endpoints accélérés par GPU de NVIDIA en vous inscrivant au Programme Développeur NVIDIA. Ce guide vous montrera comment obtenir votre clé API, effectuer vos premiers appels et intégrer les capacités multimodales de Qwen3.5 dans vos applications.

Introduction

Qwen3.5 d'Alibaba représente un bond significatif dans l'IA multimodale. Ce modèle de 397 milliards de paramètres combine une architecture de type Mixture of Experts (MoE) avec des Gated Delta Networks, offrant de puissantes capacités de raisonnement tout en maintenant les paramètres actifs à seulement 17 milliards. Le résultat est un modèle capable de comprendre des images, de naviguer dans les interfaces utilisateur et de gérer des tâches multimodales complexes, le tout accessible via une API gratuite.

Le meilleur dans tout ça ? **Vous pouvez commencer à utiliser Qwen3.5 gratuitement dès maintenant** via la plateforme développeur de NVIDIA. Que vous construisiez des agents IA, développiez des applications de raisonnement visuel ou exploriez l'IA multimodale, ce guide vous accompagnera à chaque étape.

💡

Si vous développez des applications qui s'intègrent à Qwen3.5 ou à toute autre API d'IA, vous aurez besoin d'outils de test robustes. **Apidog** fournit une plateforme complète de test d'API qui facilite la validation de vos intégrations d'API IA, la gestion des variables d'environnement et l'automatisation des flux de travail de test.

bouton

Qu'est-ce que Qwen3.5 VLM ?

Qwen3.5 est le premier modèle vision-langage natif d'Alibaba de la série Qwen3.5, conçu spécifiquement pour la construction d'agents autonomes. Contrairement aux VLM précédents qui étaient adaptés de modèles textuels uniquement, Qwen3.5 a été construit dès le départ pour le raisonnement multimodal et la navigation d'interface utilisateur.

Spécifications Clés

Spécification	Valeur
Paramètres Totaux	397 milliards
Paramètres Actifs	17 milliards
Taux d'Activation	4.28%
Nombre d'Experts	512 experts
Experts par Jeton	11 (10 acheminés + 1 partagé)
Contexte d'Entrée	256K (extensible à 1M)
Langues Prises en Charge	200+
Architecture	MoE + Gated Delta Networks

Ce qui rend Qwen3.5 spécial

L'architecture **Mixture of Experts (MoE)** signifie que seule une partie des paramètres du modèle est active pour une entrée donnée. Cela rend le modèle efficace en termes de calcul tout en maintenant la capacité de raisonnement complexe sur l'ensemble des 397 milliards de paramètres.

Les **Capacités d'Agent Multimodal NATIVES** distinguent Qwen3.5 des autres VLM :

Comprend et navigue dans les interfaces utilisateur
Effectue du raisonnement visuel sur les interfaces mobiles et web
Gère des tâches de codage complexes
Alimente les applications de chat avec une compréhension multimodale

Cas d'utilisation Idéaux

**Codage et Développement Web** : Écrivez et déboguez du code avec un contexte visuel
**Raisonnement Visuel** : Analysez des captures d'écran, des photos et des éléments d'interface utilisateur
**Applications de Chat** : Créez une IA conversationnelle avec une compréhension multimodale
**Recherche Complexe** : Effectuez des recherches simultanément sur des images et du texte
**Automatisation de l'Interface Utilisateur** : Naviguez et interagissez avec les interfaces de manière autonome

Programme Développeur NVIDIA : Obtenez Votre Clé API Gratuite

NVIDIA offre un accès gratuit à Qwen3.5 via ses endpoints accélérés par GPU. Voici comment commencer :

Étape 1 : Rejoignez le Programme Développeur NVIDIA

Visitez build.nvidia.com
Cliquez sur **Se connecter** ou **Créer un compte**
Inscrivez-vous au **Programme Développeur NVIDIA** (gratuit)
Vérifiez votre adresse e-mail

Étape 2 : Obtenez Votre Clé API

Après vous être connecté, accédez aux paramètres de votre compte
Trouvez **Clés API** ou **Clé API NVIDIA**
Copiez votre clé API (commence par nvapi-)
Stockez-la en toute sécurité (vous en aurez besoin pour l'authentification)

Important

Étape 3 : Testez Votre Accès

Vous pouvez tester Qwen3.5 directement dans votre navigateur sur build.nvidia.com/qwen/qwen3.5-397b-a17b. Cela vous permet d'expérimenter avec des requêtes et d'évaluer le modèle avec vos propres données avant d'écrire du code.

Votre Premier Appel API à Qwen3.5

Maintenant, effectuons votre premier appel API à Qwen3.5. L'API est compatible avec le format d'OpenAI, ce qui facilite son intégration dans les applications existantes.

Appel API Basique

import requests

# Configuration
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"  # Replace with your API key

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Payload - simple text-only request
payload = {
    "messages": [
        {
            "role": "user",
            "content": "What are the key features of Qwen3.5 VLM?"
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
    "temperature": 0.7,
}

# Make the request
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()

# Print the response
result = response.json()
print(result['choices'][0]['message']['content'])

Effectuer des Requêtes Multimodales (Avec Images)

Pour utiliser les capacités de vision de Qwen3.5, incluez les données d'image dans votre requête :

import requests
import base64

# Function to encode image to base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Encode your image
image_base64 = encode_image("screenshot.png")

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Multimodal request with image
payload = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_base64}"}
                },
                {
                    "type": "text",
                    "text": "What do you see in this image? Describe the UI elements."
                }
            ]
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
}

response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Exemples de Code en Python et JavaScript

Python : Exemple d'Intégration Complète

import os
import requests
from requests.exceptions import RequestException

class QwenClient:
    """Python client for Qwen3.5 API"""

    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
        self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
        self.model = "qwen/qwen3.5-397b-a17b"

    def chat(self, message, system_prompt=None, **kwargs):
        """Send a chat message to Qwen3.5"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": message})

        payload = {
            "messages": messages,
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
            "top_p": kwargs.get("top_p", 0.9),
        }

        # Enable thinking mode if requested
        if kwargs.get("thinking", False):
            payload["chat_template_kwargs"] = {"thinking": True}

        try:
            response = requests.post(
                self.endpoint,
                headers=headers,
                json=payload,
                timeout=kwargs.get("timeout", 60)
            )
            response.raise_for_status()
            return response.json()
        except RequestException as e:
            return {"error": str(e)}

    def chat_with_image(self, message, image_path, **kwargs):
        """Send a chat message with image to Qwen3.5"""
        import base64

        with open(image_path, "rb") as f:
            image_base64 = base64.b64encode(f.read()).decode("utf-8")

        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        payload = {
            "messages": [{
                "role": "user",
                "content": [
                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
                    {"type": "text", "text": message}
                ]
            }],
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
        }

        response = requests.post(self.endpoint, headers=headers, json=payload)
        response.raise_for_status()
        return response.json()


# Exemple d'utilisation
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")

# Chat textuel uniquement
result = client.chat("Explain Mixture of Experts architecture in simple terms")
print(result['choices'][0]['message']['content'])

# Chat multimodal
result = client.chat_with_image(
    "What UI elements are in this screenshot?",
    "screenshot.png"
)
print(result['choices'][0]['message']['content'])

JavaScript/Node.js : Exemple d'Intégration Complète

const axios = require('axios');

class QwenClient {
  constructor(apiKey) {
    this.apiKey = apiKey;
    this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
    this.model = 'qwen/qwen3.5-397b-a17b';
  }

  async chat(message, options = {}) {
    const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;

    const messages = [];
    if (systemPrompt) {
      messages.push({ role: 'system', content: systemPrompt });
    }
    messages.push({ role: 'user', content: message });

    const payload = {
      messages,
      model: this.model,
      temperature,
      max_tokens: maxTokens,
      ...(thinking && { chat_template_kwargs: { thinking: true } })
    };

    try {
      const response = await axios.post(this.endpoint, payload, {
        headers: {
          'Authorization': `Bearer ${this.apiKey}`,
          'Content-Type': 'application/json'
        },
        timeout: 60000
      });

      return response.data;
    } catch (error) {
      console.error('API Error:', error.response?.data || error.message);
      throw error;
    }
  }

  async chatWithImage(message, imageBase64, options = {}) {
    const { temperature = 0.7, maxTokens = 2048 } = options;

    const payload = {
      messages: [{
        role: 'user',
        content: [
          { type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
          { type: 'text', text: message }
        ]
      }],
      model: this.model,
      temperature,
      max_tokens: maxTokens
    };

    const response = await axios.post(this.endpoint, payload, {
      headers: {
        'Authorization': `Bearer ${this.apiKey}`,
        'Content-Type': 'application/json'
      }
    });

    return response.data;
  }
}

// Utilisation
const client = new QwenClient(process.env.NVIDIA_API_KEY);

// Chat textuel
const result = await client.chat('What is the advantage of MoE architecture?');
console.log(result.choices[0].message.content);

// Avec le mode de réflexion activé
const deepResult = await client.chat('Explain how reasoning works in LLMs', {
  thinking: true
});
console.log(deepResult.choices[0].message.content);

Fonctionnalités Avancées : Mode Réflexion et Appel d'Outils

Mode Réflexion

Qwen3.5 prend en charge un mode "réflexion" avancé qui permet au modèle de montrer son processus de raisonnement. Ceci est particulièrement utile pour les tâches complexes de résolution de problèmes.

payload = {
    "messages": [{"role": "user", "content": "Solve this step by step: If a train travels 120km in 2 hours, what is its speed?"}],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {"thinking": True},
    "max_tokens": 4096,
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Appel d'Outils

Qwen3.5 prend en charge l'appel de fonctions via des outils compatibles OpenAI. Cela vous permet de créer des applications agentiques capables d'exécuter des actions réelles.

import json

# Define tools for the model to use
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"}
                },
                "required": ["location"]
            }
        }
    }
]

payload = {
    "messages": [
        {"role": "user", "content": "What's the weather like in Tokyo?"}
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "tools": tools,
    "tool_choice": "auto"
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()

# Vérifier si le modèle veut appeler un outil
if 'tool_calls' in result['choices'][0]['message']:
    tool_call = result['choices'][0]['message']['tool_calls'][0]
    print(f"Le modèle veut appeler : {tool_call['function']['name']}")
    print(f"Arguments : {tool_call['function']['arguments']}")

Comprendre les Limites de Débit et la Tarification

Niveau Gratuit Actuel (Programme Développeur NVIDIA)

Fonctionnalité	Limite
Accès API	Gratuit avec inscription
Endpoints Accélérés par GPU	Inclus
Test via Navigateur	Illimité
Limites de Débit	Consulter le tableau de bord développeur

Ce que cela signifie pour vous

**Pas de carte de crédit requise** : Il suffit de s'inscrire au Programme Développeur NVIDIA gratuit
**Accéléré par GPU** : Les requêtes s'exécutent sur des GPU NVIDIA Blackwell
**Prêt pour la production** : Les mêmes endpoints sont utilisés pour les charges de travail en production

Passage à la Production

Lorsque vous êtes prêt à aller au-delà du niveau gratuit :

**NVIDIA NIM** : Déployez des modèles conteneurisés partout (cloud, sur site, hybride)
**NeMo** : Personnalisez le modèle pour votre domaine spécifique
**Support Entreprise** : Contactez NVIDIA pour une infrastructure dédiée

Déploiement en Production avec NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) facilite le passage de Qwen3.5 du développement à la production.

Qu'est-ce que NIM ?

NIM fournit des conteneurs pré-construits et optimisés pour l'inférence IA. Chaque microservice NIM comprend :

Le modèle avec des optimisations de performance
Des API standardisées (compatibles OpenAI)
Une flexibilité de déploiement (cloud, sur site, edge)

Déploiement de Qwen3.5 avec NIM

# Pull the Qwen3.5 NIM container
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

# Run the container
docker run --gpus all --rm -p 8000:8000 \
  -e NVIDIA_API_KEY=$NVIDIA_API_KEY \
  nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

Votre modèle fonctionne maintenant localement à l'adresse http://localhost:8000/v1/chat/completions.

Avantages de NIM

**Déploiement partout** : Exécutez sur site, dans le cloud ou en hybride
**Performances optimisées** : Optimisé pour l'inférence GPU NVIDIA
**API cohérentes** : Interface compatible OpenAI
**Scalable** : Passez du développement à la production en toute fluidité

Personnalisation avec NVIDIA NeMo

Pour les applications spécifiques à un domaine, vous pouvez affiner Qwen3.5 en utilisant NVIDIA NeMo.

Capacités du Framework NeMo

**Fine-tuning à haut débit** : Entraînement natif PyTorch
**Support LoRA** : Personnalisation économe en mémoire
**Entraînement multinœuds** : Support Slurm et Kubernetes
**Intégration Hugging Face** : Entraînement direct sur les checkpoints existants

Exemple : Fine-tuning pour le VQA Médical

NVIDIA propose un tutoriel technique pour l'affinage de Qwen3.5 sur des ensembles de données radiologiques pour le Visual Question Answering médical. Cela démontre comment adapter le modèle à des domaines spécialisés comme la santé.

Conclusion

Qwen3.5 représente une opportunité passionnante d'utiliser un modèle d'IA multimodal de pointe gratuitement via la plateforme développeur de NVIDIA. Avec son architecture MoE de 397 milliards de paramètres, ses capacités de vision natives et son accès API gratuit, c'est un excellent choix pour :

La création d'agents d'IA multimodaux
Le développement d'applications de raisonnement visuel
La création d'assistants de codage avec contexte visuel
L'automatisation des tâches de navigation d'interface utilisateur

Démarrer est simple : inscrivez-vous au Programme Développeur NVIDIA, obtenez votre clé API et commencez à construire.

Si vous développez des applications qui s'intègrent à Qwen3.5 ou à d'autres API d'IA, **Apidog** fournit l'infrastructure de test dont vous avez besoin. Testez vos intégrations d'API, validez les réponses, gérez les variables d'environnement et automatisez vos flux de travail de test avec la plateforme complète d'Apidog.

bouton

FAQ

Qwen3.5 est-il vraiment gratuit à utiliser ?

Oui, NVIDIA offre un accès gratuit aux endpoints accélérés par GPU de Qwen3.5 via son Programme Développeur. Aucune carte de crédit n'est requise. Il suffit de s'inscrire sur build.nvidia.com pour obtenir votre clé API.

Qu'est-ce qui distingue Qwen3.5 des autres VLM ?

Qwen3.5 a été construit spécifiquement pour les agents autonomes, et non adapté d'un modèle textuel uniquement. Son architecture Mixture of Experts (397 milliards au total, 17 milliards actifs) offre un raisonnement puissant tout en étant efficace en termes de calcul. Il est particulièrement performant pour la navigation d'interface utilisateur et les tâches de raisonnement visuel.

Puis-je utiliser Qwen3.5 pour des projets commerciaux ?

Vérifiez les conditions de licence actuelles sur la plateforme de NVIDIA. Pour une utilisation en production, envisagez NVIDIA NIM pour le déploiement ou contactez NVIDIA pour les options d'entreprise.

Quelle est la différence entre le niveau gratuit et NIM ?

Le niveau gratuit (Programme Développeur) utilise les endpoints hébergés par NVIDIA. NIM vous permet de déployer le modèle vous-même à l'aide de conteneurs, que ce soit sur site, dans votre cloud ou dans des environnements hybrides. NIM est conçu pour les déploiements à l'échelle de la production.

Comment gérer la limitation de débit ?

Le niveau gratuit a certaines limites de débit. Pour des limites plus élevées, envisagez de passer à l'accès en production via NVIDIA NIM ou de contacter NVIDIA pour les options d'entreprise.

Puis-je affiner Qwen3.5 ?

Oui ! Le framework NVIDIA NeMo fournit des outils pour affiner Qwen3.5 sur vos données spécifiques à un domaine. Cela inclut LoRA pour une personnalisation économe en mémoire et le support multinœuds pour l'entraînement à grande échelle.