Como Usar a API Flash do Qwen3.5?

A API Qwen3.5 Flash da Alibaba Cloud representa um avanço significativo em modelos de linguagem grandes acessíveis, oferecendo aos desenvolvedores uma solução poderosa e econômica para a construção de aplicativos com inteligência artificial. Seja na criação de chatbots, assistentes de codificação ou aplicativos multimodais, o Qwen3.5 Flash oferece a flexibilidade e o desempenho necessários para proporcionar experiências de usuário excepcionais. Este guia abrangente aborda tudo o que você precisa saber para começar a usar a API Qwen3.5 Flash, desde a configuração inicial até técnicas avançadas de implementação.

💡

Use o Apidog para gerenciar suas chaves de API e testar suas integrações Qwen3.5. O Apidog fornece uma interface unificada para projetar, depurar e documentar suas integrações de API – perfeito para garantir que sua implementação Qwen3.5 funcione corretamente antes de implantar em produção.

button

Compreendendo a API Qwen3.5 Flash

Qwen3.5 Flash (Qwen3.5-35B-A3B) faz parte da série de modelos Qwen3 da Alibaba, projetados para oferecer recursos de IA de alto desempenho a preços competitivos. A designação "Flash" indica que esses modelos são otimizados para velocidade e custo-benefício, tornando-os ideais para aplicações de produção onde a qualidade da resposta e o gerenciamento de recursos são importantes.

A família Qwen3.5 inclui várias variantes adaptadas a diferentes casos de uso. O modelo Qwen3.5-397B-A17B oferece capacidade máxima com 403 bilhões de parâmetros para tarefas de raciocínio complexas. O Qwen3.5-397B-FP8 oferece a mesma capacidade com armazenamento otimizado. O Qwen3.5-122B-A10B oferece 125 bilhões de parâmetros para desempenho equilibrado, enquanto o Qwen3.5-35B-A3B(Qwen3.5 Flash) oferece 36 bilhões de parâmetros como uma opção econômica para aplicações de propósito geral. Todos os modelos suportam recursos de visão (Imagem-Texto-para-Texto), permitindo interações multimodais que processam texto e imagens.

Introdução: Pré-requisitos e Configuração

Antes de começar a usar a API Qwen3.5 Flash, você precisará concluir várias etapas de configuração. Primeiro, crie uma conta Alibaba Cloud se ainda não tiver uma, então navegue até o Model Studio para gerar sua chave de API. Esta chave autentica suas requisições e rastreia seu uso para fins de faturamento. Mantenha esta chave segura e nunca a exponha em código do lado do cliente ou repositórios públicos.

Você também precisará instalar o SDK apropriado para seu ambiente de desenvolvimento. Desenvolvedores Python podem instalar o SDK compatível com OpenAI usando pip:

pip install openai

Para ambientes Node.js, o pacote npm do openai oferece funcionalidade equivalente. A API é projetada para ser compatível com OpenAI, o que significa que, se você já trabalhou com a API da OpenAI, achará a transição para o Qwen3.5 Flash simples. As principais diferenças envolvem a URL base e o mecanismo de autenticação.

Configuração da API e Endpoints Regionais

Um aspecto crítico da configuração da sua integração Qwen3.5 Flash é a seleção do endpoint regional apropriado. Sua escolha afeta a latência, o preço e os recursos disponíveis. O Alibaba Cloud oferece múltiplos endpoints regionais para atender usuários em todo o mundo:

O endpoint de Singapura (https://dashscope-intl.aliyuncs.com/compatible-mode/v1) atende a região da Ásia-Pacífico e oferece um generoso plano gratuito — 1 milhão de tokens gratuitos por 90 dias para novos usuários. Isso o torna um excelente ponto de partida para desenvolvedores que exploram a API. O endpoint da Virgínia (EUA) (https://dashscope-us.aliyuncs.com/compatible-mode/v1) oferece melhor desempenho para usuários norte-americanos, enquanto o endpoint de Pequim (https://dashscope.aliyuncs.com/compatible-mode/v1) atende usuários na China continental.

Ao configurar seu cliente, certifique-se de selecionar o endpoint geograficamente mais próximo dos usuários do seu aplicativo para um desempenho ideal. O processo de autenticação usa chaves de API em vez do fluxo OAuth que alguns outros serviços empregam, simplificando a integração e mantendo a segurança.

Realizando sua Primeira Chamada à API

Com sua chave de API e endpoint configurados, você está pronto para fazer sua primeira requisição. Aqui está um exemplo básico em Python demonstrando uma conversa simples:

"""
Variáveis de ambiente (conforme documentação oficial):
  DASHSCOPE_API_KEY: Sua chave de API de https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL: (opcional) URL base para a API em modo compatível.
  DASHSCOPE_MODEL: (opcional) Nome do modelo; sobrescreva para diferentes modelos.
  DASHSCOPE_BASE_URL:
    - Pequim: https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapura: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - EUA (Virgínia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY é obrigatória. "
        "Defina-a via: export DASHSCOPE_API_KEY='sua-chave-de-api'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Introduza Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Rastreamento completo do raciocínio
answer_content = ""  # Resposta completa
is_answering = False  # Se entramos na fase de resposta
print("\n" + "=" * 20 + "Raciocínio" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nUso:")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Coletar apenas conteúdo de raciocínio
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Conteúdo recebido, iniciar fase de resposta
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Resposta" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

Para desenvolvedores que preferem chamadas HTTP diretas, aqui está o comando curl equivalente:

curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "Explique computação quântica em termos simples"}]
}'

A estrutura da resposta segue o formato padrão OpenAI, facilitando a integração com bases de código existentes que esperam respostas de conclusão de chat.

Recursos Avançados: Modo de Raciocínio (Thinking Mode)

Uma das funcionalidades mais poderosas do Qwen3.5 é o modo de raciocínio (thinking mode), que permite ao modelo engajar-se em um raciocínio passo a passo antes de produzir as respostas. Isso se mostra particularmente valioso para problemas matemáticos complexos, raciocínio lógico e análises de múltiplas etapas, onde a exibição do processo de raciocínio melhora a qualidade do resultado.

Para habilitar o modo de raciocínio, inclua o parâmetro enable_thinking em sua requisição:

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Se um trem percorre 120km em 1.5 horas, qual é sua velocidade média?"}
    ],
    extra_body={
        'enable_thinking': True,
        'thinking_budget': 81920
    }
)

O parâmetro thinking_budget controla a quantidade de alocação de tokens que o modelo pode usar para raciocinar. Orçamentos maiores permitem um raciocínio mais aprofundado, mas aumentam o consumo de tokens e o tempo de resposta. Para consultas simples, um orçamento menor é suficiente, enquanto problemas complexos se beneficiam de uma alocação generosa.

Implementando Capacidades de Visão Multimodal

As variantes habilitadas para visão — qwen3-vl-plus e qwen3-vl-flash — estendem as capacidades da API para a compreensão de imagens. Esses modelos podem analisar imagens, descrever conteúdo visual, responder a perguntas sobre fotos e extrair informações de fotografias ou diagramas. Isso abre possibilidades para aplicações como legendagem automática de imagens, busca visual, processamento de documentos com diagramas e ferramentas de acessibilidade.

Veja como enviar uma imagem para análise:

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/sample-image.jpg"}},
            {"type": "text", "text": "Descreva o que você vê nesta imagem"}
        ]
    }
]

completion = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=messages
)

Você pode fornecer URLs de imagem ou dados de imagem codificados em base64 diretamente na requisição. O modelo processa a imagem junto com o seu prompt de texto, gerando respostas que fazem referência a elementos visuais na imagem. Essa capacidade se mostra inestimável para a construção de bots de atendimento ao cliente que podem processar capturas de tela enviadas, sistemas de moderação automatizados e ferramentas educacionais que explicam conteúdo visual.

Chamada de Função (Function Calling) para Integração de Ferramentas

A chamada de função (function calling) permite que o Qwen3.5 invoque inteligentemente ferramentas e APIs externas com base nas solicitações do usuário. Isso preenche a lacuna entre a IA conversacional e a funcionalidade do mundo real, permitindo que seu aplicativo realize ações como consultar bancos de dados, chamar APIs de terceiros ou executar lógica de negócios personalizada.

Para implementar a chamada de função, primeiro defina as ferramentas disponíveis em sua requisição:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Obter a previsão do tempo atual para um local especificado",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "Nome da cidade, por exemplo, São Francisco"
                    }
                },
                "required": ["location"]
            }
        }
    }
]

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Como está o tempo em Tóquio?"}
    ],
    tools=tools
)

Quando o modelo determina que uma chamada de função é apropriada, a resposta inclui um objeto de chamada de ferramenta em vez de uma mensagem de texto. Seu aplicativo então executa a função e retorna os resultados, permitindo que o modelo gere uma resposta contextual final. Esse padrão permite fluxos de trabalho sofisticados, como sistemas de reserva, aplicativos de recuperação de dados e assistentes interativos que podem realizar ações significativas.

Streaming de Respostas para Aplicações em Tempo Real

Para aplicações onde a latência percebida importa — como chatbots, assistentes de escrita e ferramentas interativas — o streaming de respostas proporciona uma melhor experiência ao usuário, exibindo o texto à medida que é gerado, em vez de esperar por respostas completas.

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Escreva uma pequena história sobre um robô aprendendo a pintar"}
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

O streaming reduz o tempo que os usuários esperam antes de verem uma saída significativa, o que é particularmente benéfico para respostas mais longas. O protocolo de streaming envia blocos à medida que são gerados, permitindo uma exibição progressiva enquanto o modelo continua processando.

Otimização de Custos com Cache de Contexto

O Qwen3.5 oferece economia significativa de custos através do cache de contexto, um recurso que reduz os custos para aplicações com contexto repetido. Ao enviar mensagens que compartilham prompts de sistema comuns ou documentos base, o cache armazena esse contexto para reutilização. As requisições subsequentes que fazem referência ao mesmo conteúdo em cache recebem descontos substanciais — 20% do preço padrão para cache implícito e 10% para gerenciamento explícito de cache.

Este recurso se mostra particularmente valioso para aplicações como sistemas de perguntas e respostas de documentos, onde um documento base permanece constante enquanto as perguntas do usuário variam. Em vez de reenviar o documento completo a cada consulta, você referencia o contexto em cache, reduzindo drasticamente os custos de tokens em escala.

Selecionando o Modelo Certo para Suas Necessidades

Escolher a variante apropriada do Qwen3.5 depende de seus requisitos específicos. Aqui está um guia prático:

Modelo	Tipo	Parâmetros	Melhor para
Qwen3.5-397B-A17B	Imagem-Texto-para-Texto	403B	Capacidade máxima, raciocínio complexo
Qwen3.5-397B-A17B-FP8	Imagem-Texto-para-Texto	403B	Alta capacidade com armazenamento otimizado
Qwen3.5-122B-A10B	Imagem-Texto-para-Texto	125B	Desempenho e eficiência equilibrados
Qwen3.5-35B-A3B	Imagem-Texto-para-Texto	36B	Custo-benefício, tarefas de propósito geral
Qwen3.5-35B-A3B-Base	Imagem-Texto-para-Texto	36B	Modelo base para fine-tuning
Qwen3.5-27B	Imagem-Texto-para-Texto	28B	Aplicações leves

Qwen3.5-397B-A17B

O modelo principal com 403 bilhões de parâmetros, projetado para capacidade máxima em raciocínio complexo, análise de dados em larga escala e tarefas avançadas de resolução de problemas.

Qwen3.5-397B-A17B-FP8

Mesma capacidade do modelo 397B com quantização FP8 otimizada para armazenamento reduzido e inferência mais rápida, mantendo alta qualidade.

Qwen3.5-122B-A10B

Um modelo balanceado de 125 bilhões de parâmetros que oferece forte desempenho em tarefas gerais com requisitos de recursos razoáveis.

Qwen3.5-35B-A3B (Qwen3.5 Flash)

O modelo mais versátil de 36 bilhões de parâmetros, ideal para aplicações de propósito geral, chatbots e implantações de produção econômicas.

Qwen3.5-35B-A3B-Base

A versão base do modelo da variante 35B, perfeita para fine-tuning em conjuntos de dados específicos de domínio para criar soluções de IA personalizadas.

Qwen3.5-27B

Um modelo leve de 28 bilhões de parâmetros, projetado para ambientes com recursos limitados e aplicações onde a velocidade é crítica.

Para a maioria das aplicações gerais, o Qwen3.5 Flash (Qwen3.5-35B-A3B) oferece o melhor equilíbrio entre capacidade e custo. Se você precisa de desempenho máximo para tarefas de raciocínio complexo, os modelos 397B oferecem a maior capacidade. A variante 122B oferece um meio-termo entre desempenho e requisitos de recursos.

Conclusão

A API Qwen3.5 Flash oferece aos desenvolvedores uma solução poderosa, flexível e econômica para integrar capacidades avançadas de IA em aplicações. Com interfaces compatíveis com OpenAI, generosos planos gratuitos e uma gama de modelos especializados, começar exige um esforço mínimo, ao mesmo tempo em que oferece caminhos para implementações sofisticadas. Seja você construindo chatbots simples ou complexos aplicativos multimodais, o Qwen3.5 Flash fornece a base para experiências impulsionadas por IA convincentes.

A chave para uma implementação bem-sucedida reside em compreender seus requisitos específicos — sensibilidade à latência, restrições orçamentárias e necessidades funcionais — e selecionar a variante de modelo e a configuração apropriadas. Comece com o plano gratuito na região de Singapura para explorar as capacidades e, em seguida, otimize sua implementação com base em observações de desempenho e custo no mundo real.

Otimize seu fluxo de trabalho de desenvolvimento de API com o Apidog. Desde o projeto de esquemas de API até a depuração de endpoints e a geração de documentação, o Apidog ajuda você a construir integrações confiáveis mais rapidamente. É a plataforma completa que torna o trabalho com Qwen3.5 e qualquer outra API uma brisa.

button