Comment utiliser l'API Qwen3.5 gratuitement avec NVIDIA ?

Ashley Innocent

Ashley Innocent

28 February 2026

Comment utiliser l'API Qwen3.5 gratuitement avec NVIDIA ?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

TL;DR

Qwen3.5 est le modèle vision-langage révolutionnaire d'Alibaba de 397 milliards de paramètres, doté d'une architecture de type Mixture of Experts (MoE). Vous pouvez y accéder **gratuitement** via les endpoints accélérés par GPU de NVIDIA en vous inscrivant au Programme Développeur NVIDIA. Ce guide vous montrera comment obtenir votre clé API, effectuer vos premiers appels et intégrer les capacités multimodales de Qwen3.5 dans vos applications.

Introduction

Qwen3.5 d'Alibaba représente un bond significatif dans l'IA multimodale. Ce modèle de 397 milliards de paramètres combine une architecture de type Mixture of Experts (MoE) avec des Gated Delta Networks, offrant de puissantes capacités de raisonnement tout en maintenant les paramètres actifs à seulement 17 milliards. Le résultat est un modèle capable de comprendre des images, de naviguer dans les interfaces utilisateur et de gérer des tâches multimodales complexes, le tout accessible via une API gratuite.

Le meilleur dans tout ça ? **Vous pouvez commencer à utiliser Qwen3.5 gratuitement dès maintenant** via la plateforme développeur de NVIDIA. Que vous construisiez des agents IA, développiez des applications de raisonnement visuel ou exploriez l'IA multimodale, ce guide vous accompagnera à chaque étape.

💡
Si vous développez des applications qui s'intègrent à Qwen3.5 ou à toute autre API d'IA, vous aurez besoin d'outils de test robustes. **Apidog** fournit une plateforme complète de test d'API qui facilite la validation de vos intégrations d'API IA, la gestion des variables d'environnement et l'automatisation des flux de travail de test.
bouton

Qu'est-ce que Qwen3.5 VLM ?

Qwen3.5 est le premier modèle vision-langage natif d'Alibaba de la série Qwen3.5, conçu spécifiquement pour la construction d'agents autonomes. Contrairement aux VLM précédents qui étaient adaptés de modèles textuels uniquement, Qwen3.5 a été construit dès le départ pour le raisonnement multimodal et la navigation d'interface utilisateur.

Benchmark de Qwen 3.5

Spécifications Clés

SpécificationValeur
Paramètres Totaux397 milliards
Paramètres Actifs17 milliards
Taux d'Activation4.28%
Nombre d'Experts512 experts
Experts par Jeton11 (10 acheminés + 1 partagé)
Contexte d'Entrée256K (extensible à 1M)
Langues Prises en Charge200+
ArchitectureMoE + Gated Delta Networks
Architecture des Gated Delta Networks
Architecture des Gated Delta Networks

Ce qui rend Qwen3.5 spécial

L'architecture **Mixture of Experts (MoE)** signifie que seule une partie des paramètres du modèle est active pour une entrée donnée. Cela rend le modèle efficace en termes de calcul tout en maintenant la capacité de raisonnement complexe sur l'ensemble des 397 milliards de paramètres.

Les **Capacités d'Agent Multimodal NATIVES** distinguent Qwen3.5 des autres VLM :

Cas d'utilisation Idéaux

Programme Développeur NVIDIA : Obtenez Votre Clé API Gratuite

NVIDIA offre un accès gratuit à Qwen3.5 via ses endpoints accélérés par GPU. Voici comment commencer :

Étape 1 : Rejoignez le Programme Développeur NVIDIA

  1. Visitez build.nvidia.com
  2. Cliquez sur **Se connecter** ou **Créer un compte**
  3. Inscrivez-vous au **Programme Développeur NVIDIA** (gratuit)
  4. Vérifiez votre adresse e-mail
Programme Développeur NVIDIA

Étape 2 : Obtenez Votre Clé API

  1. Après vous être connecté, accédez aux paramètres de votre compte
  2. Trouvez **Clés API** ou **Clé API NVIDIA**
  3. Copiez votre clé API (commence par nvapi-)
  4. Stockez-la en toute sécurité (vous en aurez besoin pour l'authentification)
Important

Étape 3 : Testez Votre Accès

Vous pouvez tester Qwen3.5 directement dans votre navigateur sur build.nvidia.com/qwen/qwen3.5-397b-a17b. Cela vous permet d'expérimenter avec des requêtes et d'évaluer le modèle avec vos propres données avant d'écrire du code.

Votre Premier Appel API à Qwen3.5

Maintenant, effectuons votre premier appel API à Qwen3.5. L'API est compatible avec le format d'OpenAI, ce qui facilite son intégration dans les applications existantes.

Appel API Basique

import requests

# Configuration
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"  # Replace with your API key

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Payload - simple text-only request
payload = {
    "messages": [
        {
            "role": "user",
            "content": "What are the key features of Qwen3.5 VLM?"
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
    "temperature": 0.7,
}

# Make the request
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()

# Print the response
result = response.json()
print(result['choices'][0]['message']['content'])

Effectuer des Requêtes Multimodales (Avec Images)

Pour utiliser les capacités de vision de Qwen3.5, incluez les données d'image dans votre requête :

import requests
import base64

# Function to encode image to base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Encode your image
image_base64 = encode_image("screenshot.png")

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Multimodal request with image
payload = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_base64}"}
                },
                {
                    "type": "text",
                    "text": "What do you see in this image? Describe the UI elements."
                }
            ]
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
}

response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Exemples de Code en Python et JavaScript

Python : Exemple d'Intégration Complète

import os
import requests
from requests.exceptions import RequestException

class QwenClient:
    """Python client for Qwen3.5 API"""

    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
        self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
        self.model = "qwen/qwen3.5-397b-a17b"

    def chat(self, message, system_prompt=None, **kwargs):
        """Send a chat message to Qwen3.5"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": message})

        payload = {
            "messages": messages,
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
            "top_p": kwargs.get("top_p", 0.9),
        }

        # Enable thinking mode if requested
        if kwargs.get("thinking", False):
            payload["chat_template_kwargs"] = {"thinking": True}

        try:
            response = requests.post(
                self.endpoint,
                headers=headers,
                json=payload,
                timeout=kwargs.get("timeout", 60)
            )
            response.raise_for_status()
            return response.json()
        except RequestException as e:
            return {"error": str(e)}

    def chat_with_image(self, message, image_path, **kwargs):
        """Send a chat message with image to Qwen3.5"""
        import base64

        with open(image_path, "rb") as f:
            image_base64 = base64.b64encode(f.read()).decode("utf-8")

        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        payload = {
            "messages": [{
                "role": "user",
                "content": [
                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
                    {"type": "text", "text": message}
                ]
            }],
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
        }

        response = requests.post(self.endpoint, headers=headers, json=payload)
        response.raise_for_status()
        return response.json()


# Exemple d'utilisation
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")

# Chat textuel uniquement
result = client.chat("Explain Mixture of Experts architecture in simple terms")
print(result['choices'][0]['message']['content'])

# Chat multimodal
result = client.chat_with_image(
    "What UI elements are in this screenshot?",
    "screenshot.png"
)
print(result['choices'][0]['message']['content'])

JavaScript/Node.js : Exemple d'Intégration Complète

const axios = require('axios');

class QwenClient {
  constructor(apiKey) {
    this.apiKey = apiKey;
    this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
    this.model = 'qwen/qwen3.5-397b-a17b';
  }

  async chat(message, options = {}) {
    const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;

    const messages = [];
    if (systemPrompt) {
      messages.push({ role: 'system', content: systemPrompt });
    }
    messages.push({ role: 'user', content: message });

    const payload = {
      messages,
      model: this.model,
      temperature,
      max_tokens: maxTokens,
      ...(thinking && { chat_template_kwargs: { thinking: true } })
    };

    try {
      const response = await axios.post(this.endpoint, payload, {
        headers: {
          'Authorization': `Bearer ${this.apiKey}`,
          'Content-Type': 'application/json'
        },
        timeout: 60000
      });

      return response.data;
    } catch (error) {
      console.error('API Error:', error.response?.data || error.message);
      throw error;
    }
  }

  async chatWithImage(message, imageBase64, options = {}) {
    const { temperature = 0.7, maxTokens = 2048 } = options;

    const payload = {
      messages: [{
        role: 'user',
        content: [
          { type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
          { type: 'text', text: message }
        ]
      }],
      model: this.model,
      temperature,
      max_tokens: maxTokens
    };

    const response = await axios.post(this.endpoint, payload, {
      headers: {
        'Authorization': `Bearer ${this.apiKey}`,
        'Content-Type': 'application/json'
      }
    });

    return response.data;
  }
}

// Utilisation
const client = new QwenClient(process.env.NVIDIA_API_KEY);

// Chat textuel
const result = await client.chat('What is the advantage of MoE architecture?');
console.log(result.choices[0].message.content);

// Avec le mode de réflexion activé
const deepResult = await client.chat('Explain how reasoning works in LLMs', {
  thinking: true
});
console.log(deepResult.choices[0].message.content);

Fonctionnalités Avancées : Mode Réflexion et Appel d'Outils

Mode Réflexion

Qwen3.5 prend en charge un mode "réflexion" avancé qui permet au modèle de montrer son processus de raisonnement. Ceci est particulièrement utile pour les tâches complexes de résolution de problèmes.

payload = {
    "messages": [{"role": "user", "content": "Solve this step by step: If a train travels 120km in 2 hours, what is its speed?"}],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {"thinking": True},
    "max_tokens": 4096,
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Appel d'Outils

Qwen3.5 prend en charge l'appel de fonctions via des outils compatibles OpenAI. Cela vous permet de créer des applications agentiques capables d'exécuter des actions réelles.

import json

# Define tools for the model to use
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"}
                },
                "required": ["location"]
            }
        }
    }
]

payload = {
    "messages": [
        {"role": "user", "content": "What's the weather like in Tokyo?"}
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "tools": tools,
    "tool_choice": "auto"
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()

# Vérifier si le modèle veut appeler un outil
if 'tool_calls' in result['choices'][0]['message']:
    tool_call = result['choices'][0]['message']['tool_calls'][0]
    print(f"Le modèle veut appeler : {tool_call['function']['name']}")
    print(f"Arguments : {tool_call['function']['arguments']}")

Comprendre les Limites de Débit et la Tarification

Niveau Gratuit Actuel (Programme Développeur NVIDIA)

FonctionnalitéLimite
Accès APIGratuit avec inscription
Endpoints Accélérés par GPUInclus
Test via NavigateurIllimité
Limites de DébitConsulter le tableau de bord développeur

Ce que cela signifie pour vous

Passage à la Production

Lorsque vous êtes prêt à aller au-delà du niveau gratuit :

  1. **NVIDIA NIM** : Déployez des modèles conteneurisés partout (cloud, sur site, hybride)
  2. **NeMo** : Personnalisez le modèle pour votre domaine spécifique
  3. **Support Entreprise** : Contactez NVIDIA pour une infrastructure dédiée

Déploiement en Production avec NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) facilite le passage de Qwen3.5 du développement à la production.

NVIDIA NIM

Qu'est-ce que NIM ?

NIM fournit des conteneurs pré-construits et optimisés pour l'inférence IA. Chaque microservice NIM comprend :

Déploiement de Qwen3.5 avec NIM

# Pull the Qwen3.5 NIM container
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

# Run the container
docker run --gpus all --rm -p 8000:8000 \
  -e NVIDIA_API_KEY=$NVIDIA_API_KEY \
  nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

Votre modèle fonctionne maintenant localement à l'adresse http://localhost:8000/v1/chat/completions.

Avantages de NIM

Personnalisation avec NVIDIA NeMo

Pour les applications spécifiques à un domaine, vous pouvez affiner Qwen3.5 en utilisant NVIDIA NeMo.

Capacités du Framework NeMo

Exemple : Fine-tuning pour le VQA Médical

NVIDIA propose un tutoriel technique pour l'affinage de Qwen3.5 sur des ensembles de données radiologiques pour le Visual Question Answering médical. Cela démontre comment adapter le modèle à des domaines spécialisés comme la santé.

Conclusion

Qwen3.5 représente une opportunité passionnante d'utiliser un modèle d'IA multimodal de pointe gratuitement via la plateforme développeur de NVIDIA. Avec son architecture MoE de 397 milliards de paramètres, ses capacités de vision natives et son accès API gratuit, c'est un excellent choix pour :

Démarrer est simple : inscrivez-vous au Programme Développeur NVIDIA, obtenez votre clé API et commencez à construire.

Si vous développez des applications qui s'intègrent à Qwen3.5 ou à d'autres API d'IA, **Apidog** fournit l'infrastructure de test dont vous avez besoin. Testez vos intégrations d'API, validez les réponses, gérez les variables d'environnement et automatisez vos flux de travail de test avec la plateforme complète d'Apidog.

bouton

FAQ

Qwen3.5 est-il vraiment gratuit à utiliser ?

Oui, NVIDIA offre un accès gratuit aux endpoints accélérés par GPU de Qwen3.5 via son Programme Développeur. Aucune carte de crédit n'est requise. Il suffit de s'inscrire sur build.nvidia.com pour obtenir votre clé API.

Qu'est-ce qui distingue Qwen3.5 des autres VLM ?

Qwen3.5 a été construit spécifiquement pour les agents autonomes, et non adapté d'un modèle textuel uniquement. Son architecture Mixture of Experts (397 milliards au total, 17 milliards actifs) offre un raisonnement puissant tout en étant efficace en termes de calcul. Il est particulièrement performant pour la navigation d'interface utilisateur et les tâches de raisonnement visuel.

Puis-je utiliser Qwen3.5 pour des projets commerciaux ?

Vérifiez les conditions de licence actuelles sur la plateforme de NVIDIA. Pour une utilisation en production, envisagez NVIDIA NIM pour le déploiement ou contactez NVIDIA pour les options d'entreprise.

Quelle est la différence entre le niveau gratuit et NIM ?

Le niveau gratuit (Programme Développeur) utilise les endpoints hébergés par NVIDIA. NIM vous permet de déployer le modèle vous-même à l'aide de conteneurs, que ce soit sur site, dans votre cloud ou dans des environnements hybrides. NIM est conçu pour les déploiements à l'échelle de la production.

Comment gérer la limitation de débit ?

Le niveau gratuit a certaines limites de débit. Pour des limites plus élevées, envisagez de passer à l'accès en production via NVIDIA NIM ou de contacter NVIDIA pour les options d'entreprise.

Puis-je affiner Qwen3.5 ?

Oui ! Le framework NVIDIA NeMo fournit des outils pour affiner Qwen3.5 sur vos données spécifiques à un domaine. Cela inclut LoRA pour une personnalisation économe en mémoire et le support multinœuds pour l'entraînement à grande échelle.

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API