Comment utiliser l'API Flash Qwen3.5 ?

L'API Qwen3.5 Flash d'Alibaba Cloud représente une avancée significative dans les grands modèles linguistiques accessibles, offrant aux développeurs une solution puissante et rentable pour la création d'applications basées sur l'IA. Que vous développiez des chatbots, des assistants de codage ou des applications multimodales, Qwen3.5 Flash offre la flexibilité et les performances nécessaires pour offrir des expériences utilisateur exceptionnelles. Ce guide complet vous explique tout ce que vous devez savoir pour démarrer avec l'API Qwen3.5 Flash, de la configuration initiale aux techniques d'implémentation avancées.

💡

Utilisez Apidog pour gérer vos clés API et tester vos intégrations Qwen3.5. Apidog fournit une interface unifiée pour la conception, le débogage et la documentation de vos intégrations API — parfait pour s'assurer que votre implémentation Qwen3.5 fonctionne correctement avant de la déployer en production.

bouton

Comprendre l'API Qwen3.5 Flash

Qwen3.5 Flash (Qwen3.5-35B-A3B) fait partie de la série de modèles Qwen3 d'Alibaba, conçus pour offrir des capacités d'IA haute performance à des prix compétitifs. La désignation "Flash" indique que ces modèles sont optimisés pour la vitesse et la rentabilité, ce qui les rend idéaux pour les applications de production où la qualité des réponses et la gestion des ressources sont importantes.

Représentation visuelle de Qwen3.5 Flash

La famille Qwen3.5 comprend plusieurs variantes adaptées à différents cas d'utilisation. Le modèle Qwen3.5-397B-A17B offre une capacité maximale avec 403 milliards de paramètres pour des tâches de raisonnement complexes. Le Qwen3.5-397B-FP8 offre la même capacité avec un stockage optimisé. Le modèle Qwen3.5-122B-A10B offre 125 milliards de paramètres pour des performances équilibrées, tandis que le modèle Qwen3.5-35B-A3B (Qwen3.5 Flash) offre 36 milliards de paramètres comme option rentable pour les applications à usage général. Tous les modèles prennent en charge les capacités de vision (Image-Texte-vers-Texte), permettant des interactions multimodales qui traitent à la fois le texte et les images.

Démarrage : Prérequis et configuration

Avant de pouvoir commencer à utiliser l'API Qwen3.5 Flash, vous devrez effectuer plusieurs étapes de configuration. Tout d'abord, créez un compte Alibaba Cloud si vous n'en avez pas déjà un, puis accédez à Model Studio pour générer votre clé API. Cette clé authentifie vos requêtes et suit votre utilisation à des fins de facturation. Gardez cette clé en sécurité et ne l'exposez jamais dans le code côté client ou les dépôts publics.

Vous devrez également installer le SDK approprié pour votre environnement de développement. Les développeurs Python peuvent installer le SDK compatible OpenAI en utilisant pip :

pip install openai

Pour les environnements Node.js, le package npm `openai` fournit des fonctionnalités équivalentes. L'API est conçue pour être compatible avec OpenAI, ce qui signifie que si vous avez déjà travaillé avec l'API d'OpenAI, la transition vers Qwen3.5 Flash vous semblera simple. Les principales différences concernent l'URL de base et le mécanisme d'authentification.

Configuration de l'API et points d'accès régionaux

Un aspect essentiel de la configuration de votre intégration Qwen3.5 Flash est la sélection du point d'accès régional approprié. Votre choix a un impact sur la latence, la tarification et les fonctionnalités disponibles. Alibaba Cloud propose plusieurs points d'accès régionaux pour servir les utilisateurs du monde entier :

Le point d'accès de Singapour (https://dashscope-intl.aliyuncs.com/compatible-mode/v1) dessert la région Asie-Pacifique et offre un généreux niveau gratuit — 1 million de jetons gratuits pendant 90 jours pour les nouveaux utilisateurs. Cela en fait un excellent point de départ pour les développeurs qui explorent l'API. Le point d'accès de Virginie (États-Unis) (https://dashscope-us.aliyuncs.com/compatible-mode/v1) offre de meilleures performances pour les utilisateurs nord-américains, tandis que le point d'accès de Pékin (https://dashscope.aliyuncs.com/compatible-mode/v1) dessert les utilisateurs en Chine continentale.

Lors de la configuration de votre client, assurez-vous de sélectionner le point d'accès géographiquement le plus proche de vos utilisateurs d'applications pour des performances optimales. Le processus d'authentification utilise des clés API plutôt que le flux OAuth que certains autres services emploient, simplifiant l'intégration tout en maintenant la sécurité.

Effectuer votre premier appel API

Avec votre clé API et votre point d'accès configurés, vous êtes prêt à effectuer votre première requête. Voici un exemple Python de base démontrant une conversation simple :

"""
Variables d'environnement (selon la documentation officielle) :
  DASHSCOPE_API_KEY : Votre clé API de https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL : (optionnel) URL de base pour l'API en mode compatible.
  DASHSCOPE_MODEL : (optionnel) Nom du modèle ; remplace pour différents modèles.
  DASHSCOPE_BASE_URL :
    - Pékin : https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapour : https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - États-Unis (Virginie) : https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY est requise. "
        "Définissez-la via : export DASHSCOPE_API_KEY='votre-clé-api'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Présentez Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Trace complète du raisonnement
answer_content = ""  # Réponse complète
is_answering = False  # Indique si nous sommes entrés dans la phase de réponse
print("\n" + "=" * 20 + "Raisonnement" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nUtilisation :")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Collecter uniquement le contenu du raisonnement
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Contenu reçu, démarrer la phase de réponse
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Réponse" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

Pour les développeurs préférant les appels HTTP directs, voici la commande curl équivalente :

curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "Expliquez l'informatique quantique en termes simples"}]
}'

La structure de la réponse suit le format standard d'OpenAI, ce qui facilite l'intégration avec les bases de code existantes qui s'attendent à des réponses de complétion de chat.

Fonctionnalités avancées : Le mode de réflexion

L'une des fonctionnalités les plus puissantes de Qwen3.5 est le mode de réflexion, qui permet au modèle d'engager un raisonnement étape par étape avant de produire des réponses. Cela s'avère particulièrement précieux pour les problèmes mathématiques complexes, le raisonnement logique et l'analyse en plusieurs étapes où la présentation du processus de raisonnement améliore la qualité des résultats.

Pour activer le mode de réflexion, incluez le paramètre enable_thinking dans votre requête :

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Si un train parcourt 120km en 1,5 heure, quelle est sa vitesse moyenne ?"}
    ],
    extra_body={
        'enable_thinking': True,
        'thinking_budget': 81920
    }
)

Le paramètre thinking_budget contrôle la quantité de jetons que le modèle peut utiliser pour le raisonnement. Des budgets plus élevés permettent un raisonnement plus approfondi, mais augmentent la consommation de jetons et le temps de réponse. Pour les requêtes simples, un budget plus faible suffit, tandis que les problèmes complexes bénéficient d'une allocation généreuse.

Mettre en œuvre les capacités de vision multimodale

Les variantes avec vision activée — qwen3-vl-plus et qwen3-vl-flash — étendent les capacités de l'API à la compréhension d'images. Ces modèles peuvent analyser des images, décrire du contenu visuel, répondre à des questions sur des images et extraire des informations de photographies ou de diagrammes. Cela ouvre des possibilités pour des applications telles que la légendage automatique d'images, la recherche visuelle, le traitement de documents avec des diagrammes et les outils d'accessibilité.

Voici comment envoyer une image pour analyse :

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/sample-image.jpg"}},
            {"type": "text", "text": "Décrivez ce que vous voyez sur cette image"}
        ]
    }
]

completion = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=messages
)

Vous pouvez fournir des URL d'images ou des données d'images encodées en base64 directement dans la requête. Le modèle traite l'image avec votre invite textuelle, générant des réponses qui font référence aux éléments visuels de l'image. Cette capacité s'avère inestimable pour la création de robots de service client capables de traiter des captures d'écran téléchargées, des systèmes de modération automatisés et des outils éducatifs qui expliquent le contenu visuel.

Appel de fonction pour l'intégration d'outils

L'appel de fonction permet à Qwen3.5 d'invoquer intelligemment des outils et des API externes en fonction des requêtes de l'utilisateur. Cela comble le fossé entre l'IA conversationnelle et les fonctionnalités du monde réel, permettant à votre application d'effectuer des actions telles que l'interrogation de bases de données, l'appel d'API tierces ou l'exécution de logiques métier personnalisées.

Pour implémenter l'appel de fonction, définissez d'abord les outils disponibles dans votre requête :

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Obtenir la météo actuelle pour un lieu spécifié",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "Nom de la ville, par exemple, San Francisco"
                    }
                },
                "required": ["location"]
            }
        }
    }
]

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Quel temps fait-il à Tokyo ?"}
    ],
    tools=tools
)

Lorsque le modèle détermine qu'un appel de fonction est approprié, la réponse inclut un objet d'appel d'outil plutôt qu'un message texte. Votre application exécute alors la fonction et renvoie les résultats, permettant au modèle de générer une réponse contextuelle finale. Ce modèle permet des flux de travail sophistiqués tels que les systèmes de réservation, les applications de récupération de données et les assistants interactifs capables d'entreprendre des actions significatives.

Diffusion en continu des réponses pour les applications en temps réel

Pour les applications où la latence perçue est importante — comme les chatbots, les assistants d'écriture et les outils interactifs — la diffusion en continu des réponses offre une meilleure expérience utilisateur en affichant le texte au fur et à mesure qu'il est généré, plutôt que d'attendre des réponses complètes.

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Écrivez une courte histoire sur un robot apprenant à peindre"}
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Le streaming réduit le temps d'attente des utilisateurs avant de voir un résultat significatif, ce qui est particulièrement bénéfique pour les réponses plus longues. Le protocole de streaming envoie des blocs au fur et à mesure qu'ils sont générés, permettant un affichage progressif pendant que le modèle continue son traitement.

Optimisation des coûts avec la mise en cache de contexte

Qwen3.5 offre des économies substantielles grâce à la mise en cache de contexte, une fonctionnalité qui réduit les coûts pour les applications avec un contexte répété. Lorsque vous envoyez des messages qui partagent des invites système courantes ou des documents de base, le cache stocke ce contexte pour le réutiliser. Les requêtes ultérieures faisant référence au même contenu mis en cache bénéficient de réductions substantielles — 20 % du prix standard pour la mise en cache implicite et 10 % pour la gestion explicite du cache.

Cette fonctionnalité s'avère particulièrement précieuse pour des applications telles que les systèmes de questions-réponses sur des documents, où un document de base reste constant tandis que les questions des utilisateurs varient. Au lieu de renvoyer le document complet à chaque requête, vous référencez le contexte mis en cache, réduisant considérablement les coûts des jetons à grande échelle.

Sélectionner le bon modèle pour vos besoins

Le choix de la variante Qwen3.5 appropriée dépend de vos exigences spécifiques. Voici un guide pratique :

Modèle	Type	Paramètres	Idéal pour
Qwen3.5-397B-A17B	Image-Texte-vers-Texte	403B	Capacité maximale, raisonnement complexe
Qwen3.5-397B-A17B-FP8	Image-Texte-vers-Texte	403B	Haute capacité avec stockage optimisé
Qwen3.5-122B-A10B	Image-Texte-vers-Texte	125B	Performance et efficacité équilibrées
Qwen3.5-35B-A3B	Image-Texte-vers-Texte	36B	Rentable, tâches à usage général
Qwen3.5-35B-A3B-Base	Image-Texte-vers-Texte	36B	Modèle de base pour l'affinage
Qwen3.5-27B	Image-Texte-vers-Texte	28B	Applications légères

Qwen3.5-397B-A17B

Le modèle phare avec 403 milliards de paramètres, conçu pour une capacité maximale en matière de raisonnement complexe, d'analyse de données à grande échelle et de tâches de résolution de problèmes avancées.

Qwen3.5-397B-A17B-FP8

Même capacité que le modèle 397B avec une quantification FP8 optimisée pour un stockage réduit et une inférence plus rapide tout en maintenant une haute qualité.

Qwen3.5-122B-A10B

Un modèle équilibré de 125 milliards de paramètres offrant de solides performances pour les tâches générales avec des exigences en ressources raisonnables.

Qwen3.5-35B-A3B (Qwen3.5 Flash)

Le modèle le plus polyvalent de 36 milliards de paramètres, idéal pour les applications à usage général, les chatbots et les déploiements de production rentables.

Qwen3.5-35B-A3B-Base

La version de base du modèle 35B, parfaite pour l'affinage sur des ensembles de données spécifiques à un domaine afin de créer des solutions d'IA personnalisées.

Qwen3.5-27B

Un modèle léger de 28 milliards de paramètres conçu pour les environnements à ressources limitées et les applications où la vitesse est critique.

Pour la plupart des applications générales, Qwen3.5 Flash (Qwen3.5-35B-A3B) offre le meilleur équilibre entre capacité et coût. Si vous avez besoin de performances maximales pour des tâches de raisonnement complexes, les modèles 397B offrent la capacité la plus élevée. La variante 122B offre un juste milieu entre performances et exigences en ressources.

Conclusion

L'API Qwen3.5 Flash offre aux développeurs une solution puissante, flexible et rentable pour intégrer des capacités d'IA avancées dans leurs applications. Avec des interfaces compatibles OpenAI, des niveaux gratuits généreux et une gamme de modèles spécialisés, le démarrage ne nécessite qu'un effort minimal tout en offrant des voies vers des implémentations sophistiquées. Que vous construisiez de simples chatbots ou des applications multimodales complexes, Qwen3.5 Flash fournit la base pour des expériences alimentées par l'IA convaincantes.

La clé d'une implémentation réussie réside dans la compréhension de vos exigences spécifiques — sensibilité à la latence, contraintes budgétaires et besoins fonctionnels — et dans la sélection de la variante de modèle et de la configuration appropriées. Commencez par le niveau gratuit dans la région de Singapour pour explorer les capacités, puis optimisez votre implémentation en fonction des performances réelles et des observations de coûts.

Rationalisez votre flux de travail de développement API avec Apidog. De la conception des schémas API au débogage des points d'accès et à la génération de documentation, Apidog vous aide à créer des intégrations fiables plus rapidement. C'est la plateforme tout-en-un qui facilite l'utilisation de Qwen3.5 et de toute autre API.

bouton