Cara Menggunakan Qwen3.5 API Gratis dengan NVIDIA

TL;DR

Qwen3.5 adalah model visi-bahasa (vision-language model) terobosan dari Alibaba dengan 397 miliar parameter dan arsitektur Mixture of Experts (MoE). Anda bisa mengaksesnya secara gratis melalui endpoint yang dipercepat GPU dari NVIDIA dengan mendaftar di NVIDIA Developer Program. Panduan ini akan memandu Anda dalam mendapatkan kunci API, melakukan panggilan pertama Anda, dan mengintegrasikan kemampuan multimodal Qwen3.5 ke dalam aplikasi Anda.

Pendahuluan

Qwen3.5 dari Alibaba merepresentasikan lompatan signifikan dalam AI multimodal. Model 397 miliar parameter ini menggabungkan arsitektur Mixture of Experts (MoE) dengan Gated Delta Networks, memberikan kemampuan penalaran yang kuat sementara parameter aktif hanya 17 miliar. Hasilnya adalah model yang dapat memahami gambar, menavigasi antarmuka pengguna, dan menangani tugas multimodal yang kompleks, semuanya dapat diakses melalui API gratis.

Bagian terbaiknya? Anda bisa mulai menggunakan Qwen3.5 secara gratis sekarang juga melalui platform pengembang NVIDIA. Baik Anda sedang membangun agen AI, mengembangkan aplikasi penalaran visual, atau menjelajahi AI multimodal, panduan ini akan memandu Anda melalui setiap langkah.

💡

Jika Anda sedang membangun aplikasi yang terintegrasi dengan Qwen3.5 atau API AI lainnya, Anda akan membutuhkan alat pengujian yang tangguh. Apidog menyediakan platform pengujian API komprehensif yang memudahkan Anda memvalidasi integrasi API AI Anda, mengelola variabel lingkungan, dan mengotomatiskan alur kerja pengujian.

button

Apa itu Qwen3.5 VLM?

Qwen3.5 adalah model visi-bahasa asli pertama Alibaba dalam seri Qwen3.5, yang dirancang khusus untuk membangun agen otonom. Tidak seperti VLM sebelumnya yang diadaptasi dari model teks-saja, Qwen3.5 dibangun dari awal untuk penalaran multimodal dan navigasi UI.

Spesifikasi Utama

Spesifikasi	Nilai
Total Parameter	397 miliar
Parameter Aktif	17 miliar
Tingkat Aktivasi	4,28%
Jumlah Pakar	512 pakar
Pakar per Token	11 (10 diarahkan + 1 dibagikan)
Konteks Input	256K (dapat diperluas hingga 1M)
Bahasa yang Didukung	200+
Arsitektur	MoE + Gated Delta Networks

Arsitektur Jaringan Delta Bergerbang — Arsitektur Gated Delta Networks

Apa yang Membuat Qwen3.5 Istimewa

Arsitektur Mixture of Experts (MoE) berarti hanya sebagian kecil dari parameter model yang aktif untuk setiap masukan. Ini membuat model efisien secara komputasi sambil mempertahankan kapasitas untuk penalaran kompleks di seluruh 397 miliar parameter.

Kemampuan Agen Multimodal Asli membedakan Qwen3.5 dari VLM lainnya:

Memahami dan menavigasi antarmuka pengguna
Melakukan penalaran visual pada antarmuka seluler dan web
Menangani tugas pengodean yang kompleks
Mendukung aplikasi obrolan dengan pemahaman multimodal

Kasus Penggunaan Ideal

Pengodean dan Pengembangan Web: Menulis dan men-debug kode dengan konteks visual
Penalaran Visual: Menganalisis tangkapan layar, foto, dan elemen UI
Aplikasi Obrolan: Membangun AI percakapan dengan pemahaman multimodal
Pencarian Kompleks: Mencari di seluruh gambar dan teks secara bersamaan
Otomatisasi UI: Menavigasi dan berinteraksi dengan antarmuka secara otonom

Program Pengembang NVIDIA: Dapatkan Kunci API Gratis Anda

NVIDIA menyediakan akses gratis ke Qwen3.5 melalui endpoint yang dipercepat GPU mereka. Berikut cara memulainya:

Langkah 1: Bergabung dengan Program Pengembang NVIDIA

Kunjungi build.nvidia.com
Klik Masuk atau Buat Akun
Daftar untuk NVIDIA Developer Program (gratis)
Verifikasi alamat email Anda

Langkah 2: Dapatkan Kunci API Anda

Setelah masuk, navigasikan ke pengaturan akun Anda
Temukan Kunci API atau Kunci API NVIDIA
Salin kunci API Anda (dimulai dengan nvapi-)
Simpan dengan aman (Anda akan membutuhkannya untuk autentikasi)

Penting

Langkah 3: Uji Akses Anda

Anda dapat menguji Qwen3.5 langsung di browser Anda di build.nvidia.com/qwen/qwen3.5-397b-a17b. Ini memungkinkan Anda bereksperimen dengan prompt dan mengevaluasi model dengan data Anda sendiri sebelum menulis kode apa pun.

Panggilan API Qwen3.5 Pertama Anda

Sekarang mari kita buat panggilan API pertama Anda ke Qwen3.5. API ini kompatibel dengan format OpenAI, sehingga mudah diintegrasikan ke dalam aplikasi yang sudah ada.

Panggilan API Dasar

import requests

# Konfigurasi
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "KUNCI_API_NVIDIA_ANDA"  # Ganti dengan kunci API Anda

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Payload - permintaan teks-saja sederhana
payload = {
    "messages": [
        {
            "role": "user",
            "content": "Apa saja fitur utama Qwen3.5 VLM?"
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
    "temperature": 0.7,
}

# Lakukan permintaan
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()

# Cetak respons
result = response.json()
print(result['choices'][0]['message']['content'])

Membuat Permintaan Multimodal (Dengan Gambar)

Untuk menggunakan kemampuan visi Qwen3.5, sertakan data gambar dalam permintaan Anda:

import requests
import base64

# Fungsi untuk mengkodekan gambar ke base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Kodekan gambar Anda
image_base64 = encode_image("screenshot.png")

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "KUNCI_API_NVIDIA_ANDA"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Permintaan multimodal dengan gambar
payload = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_base64}"}
                },
                {
                    "type": "text",
                    "text": "Apa yang Anda lihat pada gambar ini? Jelaskan elemen UI-nya."
                }
            ]
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
}

response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Contoh Kode dalam Python dan JavaScript

Python: Contoh Integrasi Lengkap

import os
import requests
from requests.exceptions import RequestException

class QwenClient:
    """Klien Python untuk API Qwen3.5"""

    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
        self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
        self.model = "qwen/qwen3.5-397b-a17b"

    def chat(self, message, system_prompt=None, **kwargs):
        """Kirim pesan obrolan ke Qwen3.5"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": message})

        payload = {
            "messages": messages,
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
            "top_p": kwargs.get("top_p", 0.9),
        }

        # Aktifkan mode berpikir jika diminta
        if kwargs.get("thinking", False):
            payload["chat_template_kwargs"] = {"thinking": True}

        try:
            response = requests.post(
                self.endpoint,
                headers=headers,
                json=payload,
                timeout=kwargs.get("timeout", 60)
            )
            response.raise_for_status()
            return response.json()
        except RequestException as e:
            return {"error": str(e)}

    def chat_with_image(self, message, image_path, **kwargs):
        """Kirim pesan obrolan dengan gambar ke Qwen3.5"""
        import base64

        with open(image_path, "rb") as f:
            image_base64 = base64.b64encode(f.read()).decode("utf-8")

        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        payload = {
            "messages": [{
                "role": "user",
                "content": [
                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
                    {"type": "text", "text": message}
                ]
            }],
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
        }

        response = requests.post(self.endpoint, headers=headers, json=payload)
        response.raise_for_status()
        return response.json()


# Contoh penggunaan
client = QwenClient(api_key="KUNCI_API_NVIDIA_ANDA")

# Obrolan teks-saja
result = client.chat("Jelaskan arsitektur Mixture of Experts secara sederhana")
print(result['choices'][0]['message']['content'])

# Obrolan multimodal
result = client.chat_with_image(
    "Elemen UI apa yang ada di tangkapan layar ini?",
    "screenshot.png"
)
print(result['choices'][0]['message']['content'])

JavaScript/Node.js: Contoh Integrasi Lengkap

const axios = require('axios');

class QwenClient {
  constructor(apiKey) {
    this.apiKey = apiKey;
    this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
    this.model = 'qwen/qwen3.5-397b-a17b';
  }

  async chat(message, options = {}) {
    const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;

    const messages = [];
    if (systemPrompt) {
      messages.push({ role: 'system', content: systemPrompt });
    }
    messages.push({ role: 'user', content: message });

    const payload = {
      messages,
      model: this.model,
      temperature,
      max_tokens: maxTokens,
      ...(thinking && { chat_template_kwargs: { thinking: true } })
    };

    try {
      const response = await axios.post(this.endpoint, payload, {
        headers: {
          'Authorization': `Bearer ${this.apiKey}`,
          'Content-Type': 'application/json'
        },
        timeout: 60000
      });

      return response.data;
    } catch (error) {
      console.error('Kesalahan API:', error.response?.data || error.message);
      throw error;
    }
  }

  async chatWithImage(message, imageBase64, options = {}) {
    const { temperature = 0.7, maxTokens = 2048 } = options;

    const payload = {
      messages: [{
        role: 'user',
        content: [
          { type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
          { type: 'text', text: message }
        ]
      }],
      model: this.model,
      temperature,
      max_tokens: maxTokens
    };

    const response = await axios.post(this.endpoint, payload, {
      headers: {
        'Authorization': `Bearer ${this.apiKey}`,
        'Content-Type': 'application/json'
      }
    });

    return response.data;
  }
}

// Penggunaan
const client = new QwenClient(process.env.NVIDIA_API_KEY);

// Obrolan teks
const result = await client.chat('Apa keuntungan dari arsitektur MoE?');
console.log(result.choices[0].message.content);

// Dengan mode berpikir diaktifkan
const deepResult = await client.chat('Jelaskan bagaimana penalaran bekerja pada LLM', {
  thinking: true
});
console.log(deepResult.choices[0].message.content);

Fitur Lanjutan: Mode Berpikir dan Pemanggilan Alat

Mode Berpikir

Qwen3.5 mendukung mode "berpikir" tingkat lanjut yang memungkinkan model menunjukkan proses penalarannya. Ini sangat berguna untuk tugas pemecahan masalah yang kompleks.

payload = {
    "messages": [{"role": "user", "content": "Selesaikan ini langkah demi langkah: Jika sebuah kereta menempuh 120km dalam 2 jam, berapa kecepatannya?"}],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {"thinking": True},
    "max_tokens": 4096,
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Pemanggilan Alat

Qwen3.5 mendukung pemanggilan fungsi melalui alat yang kompatibel dengan OpenAI. Ini memungkinkan Anda membangun aplikasi agen yang dapat menjalankan tindakan nyata.

import json

# Definisikan alat yang akan digunakan model
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Dapatkan cuaca saat ini untuk suatu lokasi",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "Nama kota"}
                },
                "required": ["location"]
            }
        }
    }
]

payload = {
    "messages": [
        {"role": "user", "content": "Bagaimana cuaca di Tokyo?"}
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "tools": tools,
    "tool_choice": "auto"
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()

# Periksa apakah model ingin memanggil alat
if 'tool_calls' in result['choices'][0]['message']:
    tool_call = result['choices'][0]['message']['tool_calls'][0]
    print(f"Model ingin memanggil: {tool_call['function']['name']}")
    print(f"Argumen: {tool_call['function']['arguments']}")

Memahami Batas Kecepatan dan Harga

Tingkat Gratis Saat Ini (NVIDIA Developer Program)

Fitur	Batas
Akses API	Gratis dengan pendaftaran
Endpoint yang Dipercepat GPU	Termasuk
Pengujian Browser	Tidak terbatas
Batas Kecepatan	Periksa dasbor pengembang

Apa Artinya Bagi Anda

Tidak diperlukan kartu kredit: Cukup daftar untuk NVIDIA Developer Program gratis
Dipercepat GPU: Permintaan dijalankan di GPU NVIDIA Blackwell
Siap produksi: Endpoint yang sama digunakan untuk beban kerja produksi

Penskalaan ke Produksi

Ketika Anda siap untuk beralih dari tingkat gratis:

NVIDIA NIM: Terapkan model dalam wadah di mana saja (cloud, on-premises, hibrida)
NeMo: Sesuaikan model untuk domain spesifik Anda
Dukungan perusahaan: Hubungi NVIDIA untuk infrastruktur khusus

Penyebaran Produksi dengan NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) memudahkan untuk membawa Qwen3.5 dari pengembangan ke produksi.

Apa itu NIM?

NIM menyediakan wadah yang sudah dibuat sebelumnya dan dioptimalkan untuk inferensi AI. Setiap layanan mikro NIM mengemas:

Model dengan optimasi kinerja
API standar (kompatibel dengan OpenAI)
Fleksibilitas penyebaran (cloud, on-premises, edge)

Menerapkan Qwen3.5 dengan NIM

# Tarik wadah NIM Qwen3.5
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

# Jalankan wadah
docker run --gpus all --rm -p 8000:8000 \
  -e NVIDIA_API_KEY=$NVIDIA_API_KEY \
  nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

Sekarang model Anda berjalan secara lokal di http://localhost:8000/v1/chat/completions.

Manfaat NIM

Penyebaran di mana saja: Jalankan on-premises, di cloud, atau hibrida
Kinerja yang dioptimalkan: Disesuaikan untuk inferensi GPU NVIDIA
API yang konsisten: Antarmuka yang kompatibel dengan OpenAI
Skalabel: Skala dari pengembangan ke produksi dengan mulus

Kustomisasi dengan NVIDIA NeMo

Untuk aplikasi spesifik domain, Anda dapat melakukan fine-tuning Qwen3.5 menggunakan NVIDIA NeMo.

Kemampuan Kerangka Kerja NeMo

Fine-tuning throughput tinggi: Pelatihan asli PyTorch
Dukungan LoRA: Kustomisasi efisien memori
Pelatihan multinode: Dukungan Slurm dan Kubernetes
Integrasi Hugging Face: Pelatihan langsung pada checkpoint yang sudah ada

Contoh: Fine-tuning untuk VQA Medis

NVIDIA menyediakan tutorial teknis untuk fine-tuning Qwen3.5 pada dataset radiologi untuk Visual Question Answering medis. Ini menunjukkan bagaimana mengadaptasi model untuk domain khusus seperti perawatan kesehatan.

Kesimpulan

Qwen3.5 merepresentasikan peluang menarik untuk menggunakan model AI multimodal mutakhir tanpa biaya melalui platform pengembang NVIDIA. Dengan arsitektur MoE 397 miliar parameter, kemampuan visi asli, dan akses API gratis, ini adalah pilihan yang sangat baik untuk:

Membangun agen AI multimodal
Mengembangkan aplikasi penalaran visual
Membuat asisten pengodean dengan konteks visual
Mengotomatiskan tugas navigasi UI

Memulainya sangat mudah: daftar untuk NVIDIA Developer Program, dapatkan kunci API Anda, dan mulailah membangun.

Jika Anda membangun aplikasi yang terintegrasi dengan Qwen3.5 atau API AI lainnya, Apidog menyediakan infrastruktur pengujian yang Anda butuhkan. Uji integrasi API Anda, validasi respons, kelola variabel lingkungan, dan otomatiskan alur kerja pengujian Anda dengan platform komprehensif Apidog.

button

FAQ

Apakah Qwen3.5 benar-benar gratis untuk digunakan?

Ya, NVIDIA menyediakan akses gratis ke endpoint yang dipercepat GPU Qwen3.5 melalui Program Pengembang mereka. Tidak diperlukan kartu kredit. Cukup daftar di build.nvidia.com untuk mendapatkan kunci API Anda.

Apa yang membuat Qwen3.5 berbeda dari VLM lainnya?

Qwen3.5 dibangun khusus untuk agen otonom, tidak diadaptasi dari model teks-saja. Arsitektur Mixture of Experts-nya (total 397B, aktif 17B) menyediakan penalaran yang kuat sementara tetap efisien secara komputasi. Ini sangat baik dalam tugas navigasi UI dan penalaran visual.

Dapatkah saya menggunakan Qwen3.5 untuk proyek komersial?

Periksa ketentuan lisensi saat ini di platform NVIDIA. Untuk penggunaan produksi, pertimbangkan NVIDIA NIM untuk penyebaran atau hubungi NVIDIA mengenai opsi perusahaan.

Apa perbedaan antara tingkat gratis dan NIM?

Tingkat gratis (Program Pengembang) menggunakan endpoint yang di-host oleh NVIDIA. NIM memungkinkan Anda menyebarkan model sendiri menggunakan wadah, baik on-premises, di cloud Anda, atau lingkungan hibrida. NIM dirancang untuk penyebaran skala produksi.

Bagaimana cara menangani pembatasan kecepatan?

Tingkat gratis memiliki batas kecepatan tertentu. Untuk batas yang lebih tinggi, pertimbangkan untuk meningkatkan ke akses produksi melalui NVIDIA NIM atau menghubungi NVIDIA mengenai opsi perusahaan.

Dapatkah saya melakukan fine-tuning Qwen3.5?

Ya! Kerangka kerja NVIDIA NeMo menyediakan alat untuk melakukan fine-tuning Qwen3.5 pada data spesifik domain Anda. Ini termasuk LoRA untuk kustomisasi efisien memori dan dukungan multinode untuk pelatihan skala besar.