Como Usar a API Qwen3.5 Grátis com NVIDIA

Resumo

O Qwen3.5 é o inovador modelo de linguagem visual de 397 bilhões de parâmetros da Alibaba com arquitetura Mixture of Experts (MoE). Você pode acessá-lo gratuitamente através dos endpoints acelerados por GPU da NVIDIA, registrando-se no Programa de Desenvolvedores da NVIDIA. Este guia o levará através da obtenção de sua chave API, realizando suas primeiras chamadas e integrando as capacidades multimodais do Qwen3.5 em seus aplicativos.

Introdução

O Qwen3.5 da Alibaba representa um avanço significativo na IA multimodal. Este modelo de 397 bilhões de parâmetros combina a arquitetura Mixture of Experts (MoE) com Gated Delta Networks, oferecendo poderosas capacidades de raciocínio enquanto mantém os parâmetros ativos em apenas 17 bilhões. O resultado é um modelo que pode entender imagens, navegar em interfaces de usuário e lidar com tarefas multimodais complexas, tudo acessível através de uma API gratuita.

A melhor parte? Você pode começar a usar o Qwen3.5 gratuitamente agora mesmo através da plataforma de desenvolvedores da NVIDIA. Seja você construindo agentes de IA, desenvolvendo aplicativos de raciocínio visual ou explorando IA multimodal, este guia o acompanhará em cada etapa.

💡

Se você está construindo aplicativos que se integram com o Qwen3.5 ou qualquer outra API de IA, você precisará de ferramentas de teste robustas. O Apidog oferece uma plataforma abrangente de teste de API que facilita a validação de suas integrações de API de IA, o gerenciamento de variáveis de ambiente e a automação de fluxos de trabalho de teste.

button

O que é Qwen3.5 VLM?

O Qwen3.5 é o primeiro modelo de linguagem visual nativo da Alibaba na série Qwen3.5, projetado especificamente para a construção de agentes autônomos. Ao contrário dos VLMs anteriores que foram adaptados de modelos apenas de texto, o Qwen3.5 foi construído desde o início para raciocínio multimodal e navegação de UI.

Especificações Principais

Especificação	Valor
Parâmetros Totais	397 bilhões
Parâmetros Ativos	17 bilhões
Taxa de Ativação	4,28%
Contagem de Especialistas	512 especialistas
Especialistas por Token	11 (10 roteados + 1 compartilhado)
Contexto de Entrada	256K (extensível a 1M)
Idiomas Suportados	Mais de 200
Arquitetura	MoE + Gated Delta Networks

Gated Delta Networks Architecture — Arquitetura Gated Delta Networks

O que Torna o Qwen3.5 Especial

A arquitetura Mixture of Experts (MoE) significa que apenas um subconjunto dos parâmetros do modelo está ativo para qualquer entrada. Isso torna o modelo computacionalmente eficiente, mantendo a capacidade de raciocínio complexo em todos os 397 bilhões de parâmetros.

As Capacidades Nativas de Agente Multimodal distinguem o Qwen3.5 de outros VLMs:

Compreende e navega em interfaces de usuário
Realiza raciocínio visual em interfaces móveis e web
Gerencia tarefas de codificação complexas
Potencializa aplicativos de chat com compreensão multimodal

Casos de Uso Ideais

Codificação e Desenvolvimento Web: Escreva e depure código com contexto visual
Raciocínio Visual: Analise capturas de tela, fotos e elementos de UI
Aplicativos de Chat: Construa IA conversacional com compreensão multimodal
Busca Complexa: Pesquise em imagens e texto simultaneamente
Automação de UI: Navegue e interaja com interfaces autonomamente

Programa de Desenvolvedores NVIDIA: Obtenha Sua Chave API Gratuita

A NVIDIA oferece acesso gratuito ao Qwen3.5 através de seus endpoints acelerados por GPU. Veja como começar:

Passo 1: Junte-se ao Programa de Desenvolvedores NVIDIA

Visite build.nvidia.com
Clique em Entrar ou Criar Conta
Registre-se no Programa de Desenvolvedores NVIDIA (gratuito)
Verifique seu endereço de e-mail

Passo 2: Obtenha Sua Chave API

Após fazer login, navegue até as configurações da sua conta
Encontre Chaves API ou Chave API NVIDIA
Copie sua chave API (começa com nvapi-)
Armazene-a com segurança (você precisará dela para autenticação)

Importante

Passo 3: Teste Seu Acesso

Você pode testar o Qwen3.5 diretamente em seu navegador em build.nvidia.com/qwen/qwen3.5-397b-a17b. Isso permite que você experimente prompts e avalie o modelo com seus próprios dados antes de escrever qualquer código.

Sua Primeira Chamada de API do Qwen3.5

Agora vamos fazer sua primeira chamada de API para o Qwen3.5. A API é compatível com o formato da OpenAI, facilitando a integração em aplicativos existentes.

Chamada de API Básica

import requests

# Configuration
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"  # Replace with your API key

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Payload - simple text-only request
payload = {
    "messages": [
        {
            "role": "user",
            "content": "What are the key features of Qwen3.5 VLM?"
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
    "temperature": 0.7,
}

# Make the request
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()

# Print the response
result = response.json()
print(result['choices'][0]['message']['content'])

Fazendo Solicitações Multimodais (Com Imagens)

Para usar as capacidades de visão do Qwen3.5, inclua dados de imagem em sua solicitação:

import requests
import base64

# Function to encode image to base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Encode your image
image_base64 = encode_image("screenshot.png")

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Multimodal request with image
payload = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_base64}"}
                },
                {
                    "type": "text",
                    "text": "What do you see in this image? Describe the UI elements."
                }
            ]
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
}

response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Exemplos de Código em Python e JavaScript

Python: Exemplo de Integração Completa

import os
import requests
from requests.exceptions import RequestException

class QwenClient:
    """Python client for Qwen3.5 API"""

    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
        self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
        self.model = "qwen/qwen3.5-397b-a17b"

    def chat(self, message, system_prompt=None, **kwargs):
        """Send a chat message to Qwen3.5"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": message})

        payload = {
            "messages": messages,
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
            "top_p": kwargs.get("top_p", 0.9),
        }

        # Enable thinking mode if requested
        if kwargs.get("thinking", False):
            payload["chat_template_kwargs"] = {"thinking": True}

        try:
            response = requests.post(
                self.endpoint,
                headers=headers,
                json=payload,
                timeout=kwargs.get("timeout", 60)
            )
            response.raise_for_status()
            return response.json()
        except RequestException as e:
            return {"error": str(e)}

    def chat_with_image(self, message, image_path, **kwargs):
        """Send a chat message with image to Qwen3.5"""
        import base64

        with open(image_path, "rb") as f:
            image_base64 = base64.b64encode(f.read()).decode("utf-8")

        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        payload = {
            "messages": [{
                "role": "user",
                "content": [
                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
                    {"type": "text", "text": message}
                ]
            }],
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
        }

        response = requests.post(self.endpoint, headers=headers, json=payload)
        response.raise_for_status()
        return response.json()


# Usage example
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")

# Text-only chat
result = client.chat("Explain Mixture of Experts architecture in simple terms")
print(result['choices'][0]['message']['content'])

# Multimodal chat
result = client.chat_with_image(
    "What UI elements are in this screenshot?",
    "screenshot.png"
)
print(result['choices'][0]['message']['content'])

JavaScript/Node.js: Exemplo de Integração Completa

const axios = require('axios');

class QwenClient {
  constructor(apiKey) {
    this.apiKey = apiKey;
    this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
    this.model = 'qwen/qwen3.5-397b-a17b';
  }

  async chat(message, options = {}) {
    const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;

    const messages = [];
    if (systemPrompt) {
      messages.push({ role: 'system', content: systemPrompt });
    }
    messages.push({ role: 'user', content: message });

    const payload = {
      messages,
      model: this.model,
      temperature,
      max_tokens: maxTokens,
      ...(thinking && { chat_template_kwargs: { thinking: true } })
    };

    try {
      const response = await axios.post(this.endpoint, payload, {
        headers: {
          'Authorization': `Bearer ${this.apiKey}`,
          'Content-Type': 'application/json'
        },
        timeout: 60000
      });

      return response.data;
    } catch (error) {
      console.error('API Error:', error.response?.data || error.message);
      throw error;
    }
  }

  async chatWithImage(message, imageBase64, options = {}) {
    const { temperature = 0.7, maxTokens = 2048 } = options;

    const payload = {
      messages: [{
        role: 'user',
        content: [
          { type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
          { type: 'text', text: message }
        ]
      }],
      model: this.model,
      temperature,
      max_tokens: maxTokens
    };

    const response = await axios.post(this.endpoint, payload, {
      headers: {
        'Authorization': `Bearer ${this.apiKey}`,
        'Content-Type': 'application/json'
      }
    });

    return response.data;
  }
}

// Usage
const client = new QwenClient(process.env.NVIDIA_API_KEY);

// Text chat
const result = await client.chat('What is the advantage of MoE architecture?');
console.log(result.choices[0].message.content);

// With thinking enabled
const deepResult = await client.chat('Explain how reasoning works in LLMs', {
  thinking: true
});
console.log(deepResult.choices[0].message.content);

Recursos Avançados: Modo de Pensamento e Chamada de Ferramentas

Modo de Pensamento

O Qwen3.5 suporta um modo avançado de "pensamento" que permite ao modelo exibir seu processo de raciocínio. Isso é particularmente útil para tarefas complexas de resolução de problemas.

payload = {
    "messages": [{"role": "user", "content": "Solve this step by step: If a train travels 120km in 2 hours, what is its speed?"}],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {"thinking": True},
    "max_tokens": 4096,
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Chamada de Ferramentas

O Qwen3.5 suporta chamadas de função através de ferramentas compatíveis com OpenAI. Isso permite que você construa aplicativos com agentes que podem executar ações reais.

import json

# Define tools for the model to use
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"}
                },
                "required": ["location"]
            }
        }
    }
]

payload = {
    "messages": [
        {"role": "user", "content": "What's the weather like in Tokyo?"}
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "tools": tools,
    "tool_choice": "auto"
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()

# Check if model wants to call a tool
if 'tool_calls' in result['choices'][0]['message']:
    tool_call = result['choices'][0]['message']['tool_calls'][0]
    print(f"Model wants to call: {tool_call['function']['name']}")
    print(f"Arguments: {tool_call['function']['arguments']}")

Compreendendo Limites de Taxa e Preços

Nível Gratuito Atual (Programa de Desenvolvedores NVIDIA)

Recurso	Limite
Acesso à API	Gratuito com registro
Endpoints Acelerados por GPU	Incluído
Teste no Navegador	Ilimitado
Limites de Taxa	Verifique o painel do desenvolvedor

O Que Isso Significa Para Você

Não é necessário cartão de crédito: Basta se registrar no Programa de Desenvolvedores NVIDIA gratuito
Acelerado por GPU: As solicitações são executadas em GPUs NVIDIA Blackwell
Pronto para produção: Mesmos endpoints usados para cargas de trabalho de produção

Escalando para Produção

NVIDIA NIM: Implante modelos conteinerizados em qualquer lugar (nuvem, on-premises, híbrido)
NeMo: Personalize o modelo para seu domínio específico
Suporte empresarial: Entre em contato com a NVIDIA para infraestrutura dedicada

Implantação em Produção com NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) facilita a transição do Qwen3.5 do desenvolvimento para a produção.

O que é NIM?

O NIM fornece contêineres pré-construídos e otimizados para inferência de IA. Cada microsserviço NIM inclui:

O modelo com otimizações de desempenho
APIs padronizadas (compatíveis com OpenAI)
Flexibilidade de implantação (nuvem, on-premises, edge)

Implantando Qwen3.5 com NIM

# Pull the Qwen3.5 NIM container
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

# Run the container
docker run --gpus all --rm -p 8000:8000 \
  -e NVIDIA_API_KEY=$NVIDIA_API_KEY \
  nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

Agora seu modelo está sendo executado localmente em http://localhost:8000/v1/chat/completions.

Benefícios do NIM

Implantação em qualquer lugar: Execute on-premises, na nuvem ou em ambientes híbridos
Desempenho otimizado: Sintonizado para inferência de GPU NVIDIA
APIs consistentes: Interface compatível com OpenAI
Escalável: Escale do desenvolvimento para a produção de forma contínua

Personalização com NVIDIA NeMo

Para aplicativos específicos de domínio, você pode ajustar o Qwen3.5 usando o NVIDIA NeMo.

Capacidades do Framework NeMo

Ajuste fino de alto desempenho: Treinamento nativo PyTorch
Suporte a LoRA: Personalização com uso eficiente de memória
Treinamento multinó: Suporte a Slurm e Kubernetes
Integração com Hugging Face: Treinamento direto em checkpoints existentes

Exemplo: Ajuste Fino para VQA Médico

A NVIDIA oferece um tutorial técnico para o ajuste fino do Qwen3.5 em conjuntos de dados radiológicos para Perguntas e Respostas Visuais médicas (VQA). Isso demonstra como adaptar o modelo para domínios especializados como a saúde.

Conclusão

O Qwen3.5 representa uma oportunidade empolgante de usar um modelo de IA multimodal de ponta sem custo através da plataforma de desenvolvedores da NVIDIA. Com sua arquitetura MoE de 397 bilhões de parâmetros, capacidades de visão nativas e acesso gratuito à API, é uma excelente escolha para:

Construir agentes de IA multimodais
Desenvolver aplicativos de raciocínio visual
Criar assistentes de codificação com contexto visual
Automatizar tarefas de navegação de UI

Começar é simples: registre-se no Programa de Desenvolvedores NVIDIA, obtenha sua chave API e comece a construir.

Se você está construindo aplicativos que se integram com o Qwen3.5 ou outras APIs de IA, o Apidog oferece a infraestrutura de teste de que você precisa. Teste suas integrações de API, valide respostas, gerencie variáveis de ambiente e automatize seus fluxos de trabalho de teste com a plataforma abrangente do Apidog.

button

FAQ

O Qwen3.5 é realmente gratuito para usar?

Sim, a NVIDIA oferece acesso gratuito aos endpoints acelerados por GPU do Qwen3.5 através de seu Programa de Desenvolvedores. Não é necessário cartão de crédito. Basta registrar-se em build.nvidia.com para obter sua chave API.

O que diferencia o Qwen3.5 de outros VLMs?

O Qwen3.5 foi construído especificamente para agentes autônomos, e não adaptado de um modelo apenas de texto. Sua arquitetura Mixture of Experts (397B total, 17B ativos) fornece um raciocínio poderoso, mantendo-se computacionalmente eficiente. É particularmente bom em tarefas de navegação de UI e raciocínio visual.

Posso usar o Qwen3.5 para projetos comerciais?

Verifique os termos de licenciamento atuais na plataforma da NVIDIA. Para uso em produção, considere o NVIDIA NIM para implantação ou entre em contato com a NVIDIA sobre opções empresariais.

Qual a diferença entre o nível gratuito e o NIM?

O nível gratuito (Programa de Desenvolvedores) usa endpoints hospedados pela NVIDIA. O NIM permite que você implante o modelo por conta própria usando contêineres, seja on-premises, em sua nuvem ou em ambientes híbridos. O NIM é projetado para implantações em escala de produção.

Como lido com o limite de taxa?

O nível gratuito possui certos limites de taxa. Para limites mais altos, considere fazer upgrade para acesso de produção através do NVIDIA NIM ou entrar em contato com a NVIDIA sobre opções empresariais.

Posso fazer ajuste fino no Qwen3.5?

Sim! O framework NVIDIA NeMo fornece ferramentas para o ajuste fino do Qwen3.5 em seus dados específicos de domínio. Isso inclui LoRA para personalização eficiente em termos de memória e suporte multinó para treinamento em larga escala.