API Qwen3.5 Flash dari Alibaba Cloud merepresentasikan kemajuan signifikan dalam model bahasa besar yang mudah diakses, menawarkan solusi yang kuat dan hemat biaya bagi pengembang untuk membangun aplikasi bertenaga AI. Baik Anda membangun chatbot, asisten pengkodean, atau aplikasi multimodal, Qwen3.5 Flash menyediakan fleksibilitas dan kinerja yang dibutuhkan untuk memberikan pengalaman pengguna yang luar biasa. Panduan komprehensif ini akan memandu Anda melalui semua yang perlu Anda ketahui untuk memulai dengan API Qwen3.5 Flash, mulai dari pengaturan awal hingga teknik implementasi tingkat lanjut.
Memahami API Qwen3.5 Flash
Qwen3.5 Flash (Qwen3.5-35B-A3B) adalah bagian dari seri model Qwen3 Alibaba, yang dirancang untuk memberikan kapabilitas AI berkinerja tinggi dengan harga yang kompetitif. Penamaan "Flash" menunjukkan bahwa model-model ini dioptimalkan untuk kecepatan dan efisiensi biaya, menjadikannya ideal untuk aplikasi produksi di mana kualitas respons dan pengelolaan sumber daya sama-sama penting.

Keluarga Qwen3.5 mencakup beberapa varian yang disesuaikan untuk kasus penggunaan yang berbeda. Model Qwen3.5-397B-A17B menawarkan kapabilitas maksimum dengan 403 miliar parameter untuk tugas penalaran yang kompleks. Qwen3.5-397B-FP8 menyediakan kapabilitas yang sama dengan penyimpanan yang dioptimalkan. Qwen3.5-122B-A10B menawarkan 125 miliar parameter untuk kinerja yang seimbang, sementara Qwen3.5-35B-A3B(Qwen3.5 Flash) memberikan 36 miliar parameter sebagai opsi hemat biaya untuk aplikasi tujuan umum. Semua model mendukung kapabilitas penglihatan (Image-Text-to-Text), memungkinkan interaksi multimodal yang memproses teks dan gambar.
Memulai: Prasyarat dan Pengaturan
Sebelum Anda dapat mulai menggunakan API Qwen3.5 Flash, Anda perlu menyelesaikan beberapa langkah pengaturan. Pertama, buat akun Alibaba Cloud jika Anda belum memilikinya, lalu navigasikan ke Model Studio untuk menghasilkan kunci API Anda. Kunci ini mengautentikasi permintaan Anda dan melacak penggunaan Anda untuk tujuan penagihan. Jaga kunci ini tetap aman dan jangan pernah mengeksposnya dalam kode sisi klien atau repositori publik.

Anda juga perlu menginstal SDK yang sesuai untuk lingkungan pengembangan Anda. Pengembang Python dapat menginstal SDK yang kompatibel dengan OpenAI menggunakan pip:
pip install openai
Untuk lingkungan Node.js, paket npm openai menyediakan fungsionalitas yang setara. API ini dirancang agar kompatibel dengan OpenAI, yang berarti jika Anda sebelumnya pernah bekerja dengan API OpenAI, Anda akan menemukan transisi ke Qwen3.5 Flash cukup mudah. Perbedaan utamanya terletak pada URL dasar dan mekanisme autentikasi.
Konfigurasi API dan Titik Akhir Regional
Salah satu aspek penting dalam mengonfigurasi integrasi Qwen3.5 Flash Anda adalah memilih titik akhir regional yang sesuai. Pilihan Anda memengaruhi latensi, harga, dan fitur yang tersedia. Alibaba Cloud menyediakan beberapa titik akhir regional untuk melayani pengguna di seluruh dunia:
Titik akhir Singapura (https://dashscope-intl.aliyuncs.com/compatible-mode/v1) melayani wilayah Asia-Pasifik dan menawarkan tingkat gratis yang murah hati—1 juta token gratis selama 90 hari untuk pengguna baru. Ini menjadikannya titik awal yang sangat baik bagi pengembang yang menjelajahi API. Titik akhir Virginia (AS) (https://dashscope-us.aliyuncs.com/compatible-mode/v1) memberikan kinerja yang lebih baik untuk pengguna Amerika Utara, sementara titik akhir Beijing (https://dashscope.aliyuncs.com/compatible-mode/v1) melayani pengguna di daratan Tiongkok.
Saat mengonfigurasi klien Anda, pastikan Anda memilih titik akhir yang secara geografis terdekat dengan pengguna aplikasi Anda untuk kinerja optimal. Proses autentikasi menggunakan kunci API daripada alur OAuth yang digunakan beberapa layanan lain, menyederhanakan integrasi sambil menjaga keamanan.
Melakukan Panggilan API Pertama Anda
Dengan kunci API dan titik akhir yang telah Anda konfigurasi, Anda siap untuk membuat permintaan pertama Anda. Berikut adalah contoh Python dasar yang mendemonstrasikan percakapan sederhana:
"""
Environment variables (per official docs):
DASHSCOPE_API_KEY: Your API Key from https://bailian.console.aliyun.com
DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.
DASHSCOPE_MODEL: (optional) Model name; override for different models.
DASHSCOPE_BASE_URL:
- Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
- Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os
api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
raise ValueError(
"DASHSCOPE_API_KEY is required. "
"Set it via: export DASHSCOPE_API_KEY='your-api-key'"
)
client = OpenAI(
api_key=api_key,
base_url=os.environ.get(
"DASHSCOPE_BASE_URL",
"https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
),
)
messages = [{"role": "user", "content": "Introduce Qwen3.5."}]
model = os.environ.get(
"DASHSCOPE_MODEL",
"qwen3.5-plus",
)
completion = client.chat.completions.create(
model=model,
messages=messages,
extra_body={
"enable_thinking": True,
"enable_search": False
},
stream=True
)
reasoning_content = "" # Full reasoning trace
answer_content = "" # Full response
is_answering = False # Whether we have entered the answer phase
print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")
for chunk in completion:
if not chunk.choices:
print("\nUsage:")
print(chunk.usage)
continue
delta = chunk.choices[0].delta
# Collect reasoning content only
if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
if not is_answering:
print(delta.reasoning_content, end="", flush=True)
reasoning_content += delta.reasoning_content
# Received content, start answer phase
if hasattr(delta, "content") and delta.content:
if not is_answering:
print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n")
is_answering = True
print(delta.content, end="", flush=True)
answer_content += delta.content
Untuk pengembang yang lebih memilih panggilan HTTP langsung, berikut adalah perintah curl yang setara:
curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3.5-35B-A3B",
"messages": [{"role": "user", "content": "Explain quantum computing in simple terms"}]
}'
Struktur respons mengikuti format standar OpenAI, sehingga mudah diintegrasikan dengan basis kode yang ada yang mengharapkan respons penyelesaian obrolan.
Fitur Lanjutan: Mode Berpikir
Salah satu fitur Qwen3.5 yang paling kuat adalah mode berpikir, yang memungkinkan model untuk melakukan penalaran langkah demi langkah sebelum menghasilkan jawaban. Ini terbukti sangat berharga untuk masalah matematika yang kompleks, penalaran logis, dan analisis multi-langkah di mana menunjukkan proses penalaran meningkatkan kualitas hasil.
Untuk mengaktifkan mode berpikir, sertakan parameter enable_thinking dalam permintaan Anda:
completion = client.chat.completions.create(
model="qwen3.5-flash",
messages=[
{"role": "user", "content": "If a train travels 120km in 1.5 hours, what is its average speed?"}
],
extra_body={
'enable_thinking': True,
'thinking_budget': 81920
}
)
Parameter thinking_budget mengontrol berapa banyak alokasi token yang dapat digunakan model untuk penalaran. Anggaran yang lebih tinggi memungkinkan penalaran yang lebih menyeluruh tetapi meningkatkan konsumsi token dan waktu respons. Untuk kueri sederhana, anggaran yang lebih rendah sudah cukup, sementara masalah kompleks mendapat manfaat dari alokasi yang lebih besar.
Mengimplementasikan Kapabilitas Penglihatan Multimodal
Varian yang mendukung penglihatan—qwen3-vl-plus dan qwen3-vl-flash—memperluas kapabilitas API untuk memahami gambar. Model-model ini dapat menganalisis gambar, mendeskripsikan konten visual, menjawab pertanyaan tentang gambar, dan mengekstrak informasi dari foto atau diagram. Ini membuka kemungkinan untuk aplikasi seperti pembuatan keterangan gambar otomatis, pencarian visual, pemrosesan dokumen dengan diagram, dan alat aksesibilitas.
Berikut cara mengirim gambar untuk dianalisis:
messages = [
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/sample-image.jpg"}},
{"type": "text", "text": "Describe what you see in this image"}
]
}
]
completion = client.chat.completions.create(
model="Qwen3.5-35B-A3B",
messages=messages
)
Anda dapat menyediakan URL gambar atau data gambar yang dikodekan base64 langsung dalam permintaan. Model memproses gambar bersama dengan perintah teks Anda, menghasilkan respons yang merujuk pada elemen visual dalam gambar. Kapabilitas ini terbukti sangat berharga untuk membangun bot layanan pelanggan yang dapat memproses tangkapan layar yang diunggah, sistem moderasi otomatis, dan alat pendidikan yang menjelaskan konten visual.
Panggilan Fungsi untuk Integrasi Alat
Panggilan fungsi memungkinkan Qwen3.5 untuk secara cerdas memanggil alat dan API eksternal berdasarkan permintaan pengguna. Ini menjembatani kesenjangan antara AI percakapan dan fungsionalitas dunia nyata, memungkinkan aplikasi Anda untuk melakukan tindakan seperti membuat kueri basis data, memanggil API pihak ketiga, atau mengesekusi logika bisnis kustom.
Untuk mengimplementasikan panggilan fungsi, pertama-tama definisikan alat yang tersedia dalam permintaan Anda:
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get current weather for a specified location",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "City name, e.g., San Francisco"
}
},
"required": ["location"]
}
}
}
]
completion = client.chat.completions.create(
model="qwen3.5-flash",
messages=[
{"role": "user", "content": "What's the weather like in Tokyo?"}
],
tools=tools
)
Ketika model menentukan bahwa panggilan fungsi sesuai, respons akan menyertakan objek panggilan alat daripada pesan teks. Aplikasi Anda kemudian mengeksekusi fungsi dan mengembalikan hasilnya, memungkinkan model untuk menghasilkan respons kontekstual akhir. Pola ini memungkinkan alur kerja yang canggih seperti sistem pemesanan, aplikasi pengambilan data, dan asisten interaktif yang dapat melakukan tindakan berarti.
Respons Streaming untuk Aplikasi Real-Time
Untuk aplikasi di mana latensi yang dirasakan penting—seperti chatbot, asisten penulisan, dan alat interaktif—respons streaming memberikan pengalaman pengguna yang lebih baik dengan menampilkan teks saat dibuat daripada menunggu respons lengkap.
completion = client.chat.completions.create(
model="qwen3.5-flash",
messages=[
{"role": "user", "content": "Write a short story about a robot learning to paint"}
],
stream=True
)
for chunk in completion:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
Streaming mengurangi waktu tunggu pengguna sebelum melihat keluaran yang bermakna, terutama bermanfaat untuk respons yang lebih panjang. Protokol streaming mengirimkan potongan-potongan saat dihasilkan, memungkinkan tampilan progresif sementara model terus memproses.
Optimisasi Biaya dengan Penyimpanan Konteks
Qwen3.5 menawarkan penghematan biaya yang signifikan melalui caching konteks, fitur yang mengurangi biaya untuk aplikasi dengan konteks berulang. Ketika Anda mengirim pesan yang berbagi prompt sistem umum atau dokumen dasar, cache menyimpan konteks ini untuk digunakan kembali. Permintaan berikutnya yang mereferensikan konten cache yang sama akan menerima diskon besar—20% dari harga standar untuk caching implisit dan 10% untuk manajemen cache eksplisit.

Fitur ini terbukti sangat berharga untuk aplikasi seperti sistem Tanya Jawab dokumen, di mana dokumen dasar tetap konstan sementara pertanyaan pengguna bervariasi. Alih-alih mengirim ulang seluruh dokumen dengan setiap kueri, Anda mereferensikan konteks yang di-cache, secara dramatis mengurangi biaya token dalam skala besar.
Memilih Model yang Tepat untuk Kebutuhan Anda
Memilih varian Qwen3.5 yang sesuai tergantung pada kebutuhan spesifik Anda. Berikut adalah panduan praktis:
| Model | Tipe | Parameter | Terbaik Untuk |
|---|---|---|---|
| Qwen3.5-397B-A17B | Gambar-Teks-ke-Teks | 403B | Kapabilitas maksimum, penalaran kompleks |
| Qwen3.5-397B-A17B-FP8 | Gambar-Teks-ke-Teks | 403B | Kapabilitas tinggi dengan penyimpanan yang dioptimalkan |
| Qwen3.5-122B-A10B | Gambar-Teks-ke-Teks | 125B | Kinerja dan efisiensi yang seimbang |
| Qwen3.5-35B-A3B | Gambar-Teks-ke-Teks | 36B | Hemat biaya, tugas tujuan umum |
| Qwen3.5-35B-A3B-Base | Gambar-Teks-ke-Teks | 36B | Model dasar untuk fine-tuning |
| Qwen3.5-27B | Gambar-Teks-ke-Teks | 28B | Aplikasi ringan |
Qwen3.5-397B-A17B
Model unggulan dengan 403 miliar parameter, dirancang untuk kapabilitas maksimum dalam penalaran kompleks, analisis data skala besar, dan tugas pemecahan masalah tingkat lanjut.

Qwen3.5-397B-A17B-FP8
Kapabilitas yang sama dengan model 397B dengan kuantisasi FP8 yang dioptimalkan untuk penyimpanan yang lebih kecil dan inferensi yang lebih cepat sambil mempertahankan kualitas tinggi.

Qwen3.5-122B-A10B
Model 125 miliar parameter yang seimbang, menawarkan kinerja kuat di berbagai tugas umum dengan persyaratan sumber daya yang wajar.

Qwen3.5-35B-A3B (Qwen3.5 Flash)
Model 36 miliar parameter yang paling serbaguna, ideal untuk aplikasi tujuan umum, chatbot, dan penerapan produksi yang hemat biaya.

Qwen3.5-35B-A3B-Base
Versi model dasar dari varian 35B, sempurna untuk fine-tuning pada dataset spesifik domain untuk menciptakan solusi AI kustom.
Qwen3.5-27B
Model 28 miliar parameter yang ringan, dirancang untuk lingkungan dengan sumber daya terbatas dan aplikasi di mana kecepatan sangat penting.

Untuk sebagian besar aplikasi umum, Qwen3.5 Flash (Qwen3.5-35B-A3B) memberikan keseimbangan terbaik antara kapabilitas dan biaya. Jika Anda memerlukan kinerja maksimum untuk tugas penalaran kompleks, model 397B memberikan kapabilitas tertinggi. Varian 122B menawarkan titik tengah antara kinerja dan persyaratan sumber daya.
Kesimpulan
API Qwen3.5 Flash menawarkan kepada pengembang solusi yang kuat, fleksibel, dan hemat biaya untuk mengintegrasikan kapabilitas AI canggih ke dalam aplikasi. Dengan antarmuka yang kompatibel dengan OpenAI, tingkat gratis yang murah hati, dan berbagai model khusus, memulai membutuhkan upaya minimal sambil menawarkan jalur menuju implementasi yang canggih. Baik Anda membangun chatbot sederhana atau aplikasi multimodal yang kompleks, Qwen3.5 Flash menyediakan fondasi untuk pengalaman bertenaga AI yang menarik.
Kunci keberhasilan implementasi terletak pada pemahaman persyaratan spesifik Anda—sensitivitas latensi, batasan anggaran, dan kebutuhan fungsional—dan memilih varian model serta konfigurasi yang sesuai. Mulailah dengan tingkat gratis di wilayah Singapura untuk menjelajahi kapabilitas, lalu optimalkan implementasi Anda berdasarkan pengamatan kinerja dan biaya di dunia nyata.
Sederhanakan alur kerja pengembangan API Anda dengan Apidog. Dari merancang skema API hingga men-debug titik akhir dan menghasilkan dokumentasi, Apidog membantu Anda membangun integrasi yang andal lebih cepat. Ini adalah platform lengkap yang membuat bekerja dengan Qwen3.5 dan API lainnya menjadi mudah.
