Cara Menggunakan Qwen3.5 Flash API

API Qwen3.5 Flash dari Alibaba Cloud merepresentasikan kemajuan signifikan dalam model bahasa besar yang mudah diakses, menawarkan solusi yang kuat dan hemat biaya bagi pengembang untuk membangun aplikasi bertenaga AI. Baik Anda membangun chatbot, asisten pengkodean, atau aplikasi multimodal, Qwen3.5 Flash menyediakan fleksibilitas dan kinerja yang dibutuhkan untuk memberikan pengalaman pengguna yang luar biasa. Panduan komprehensif ini akan memandu Anda melalui semua yang perlu Anda ketahui untuk memulai dengan API Qwen3.5 Flash, mulai dari pengaturan awal hingga teknik implementasi tingkat lanjut.

💡

Gunakan Apidog untuk mengelola kunci API Anda dan menguji integrasi Qwen3.5 Anda. Apidog menyediakan antarmuka terpadu untuk merancang, men-debug, dan mendokumentasikan integrasi API Anda—sempurna untuk memastikan implementasi Qwen3.5 Anda berfungsi dengan benar sebelum diterapkan ke produksi.

tombol

Memahami API Qwen3.5 Flash

Qwen3.5 Flash (Qwen3.5-35B-A3B) adalah bagian dari seri model Qwen3 Alibaba, yang dirancang untuk memberikan kapabilitas AI berkinerja tinggi dengan harga yang kompetitif. Penamaan "Flash" menunjukkan bahwa model-model ini dioptimalkan untuk kecepatan dan efisiensi biaya, menjadikannya ideal untuk aplikasi produksi di mana kualitas respons dan pengelolaan sumber daya sama-sama penting.

Keluarga Qwen3.5 mencakup beberapa varian yang disesuaikan untuk kasus penggunaan yang berbeda. Model Qwen3.5-397B-A17B menawarkan kapabilitas maksimum dengan 403 miliar parameter untuk tugas penalaran yang kompleks. Qwen3.5-397B-FP8 menyediakan kapabilitas yang sama dengan penyimpanan yang dioptimalkan. Qwen3.5-122B-A10B menawarkan 125 miliar parameter untuk kinerja yang seimbang, sementara Qwen3.5-35B-A3B(Qwen3.5 Flash) memberikan 36 miliar parameter sebagai opsi hemat biaya untuk aplikasi tujuan umum. Semua model mendukung kapabilitas penglihatan (Image-Text-to-Text), memungkinkan interaksi multimodal yang memproses teks dan gambar.

Memulai: Prasyarat dan Pengaturan

Sebelum Anda dapat mulai menggunakan API Qwen3.5 Flash, Anda perlu menyelesaikan beberapa langkah pengaturan. Pertama, buat akun Alibaba Cloud jika Anda belum memilikinya, lalu navigasikan ke Model Studio untuk menghasilkan kunci API Anda. Kunci ini mengautentikasi permintaan Anda dan melacak penggunaan Anda untuk tujuan penagihan. Jaga kunci ini tetap aman dan jangan pernah mengeksposnya dalam kode sisi klien atau repositori publik.

Anda juga perlu menginstal SDK yang sesuai untuk lingkungan pengembangan Anda. Pengembang Python dapat menginstal SDK yang kompatibel dengan OpenAI menggunakan pip:

pip install openai

Untuk lingkungan Node.js, paket npm openai menyediakan fungsionalitas yang setara. API ini dirancang agar kompatibel dengan OpenAI, yang berarti jika Anda sebelumnya pernah bekerja dengan API OpenAI, Anda akan menemukan transisi ke Qwen3.5 Flash cukup mudah. Perbedaan utamanya terletak pada URL dasar dan mekanisme autentikasi.

Konfigurasi API dan Titik Akhir Regional

Salah satu aspek penting dalam mengonfigurasi integrasi Qwen3.5 Flash Anda adalah memilih titik akhir regional yang sesuai. Pilihan Anda memengaruhi latensi, harga, dan fitur yang tersedia. Alibaba Cloud menyediakan beberapa titik akhir regional untuk melayani pengguna di seluruh dunia:

Titik akhir Singapura (https://dashscope-intl.aliyuncs.com/compatible-mode/v1) melayani wilayah Asia-Pasifik dan menawarkan tingkat gratis yang murah hati—1 juta token gratis selama 90 hari untuk pengguna baru. Ini menjadikannya titik awal yang sangat baik bagi pengembang yang menjelajahi API. Titik akhir Virginia (AS) (https://dashscope-us.aliyuncs.com/compatible-mode/v1) memberikan kinerja yang lebih baik untuk pengguna Amerika Utara, sementara titik akhir Beijing (https://dashscope.aliyuncs.com/compatible-mode/v1) melayani pengguna di daratan Tiongkok.

Saat mengonfigurasi klien Anda, pastikan Anda memilih titik akhir yang secara geografis terdekat dengan pengguna aplikasi Anda untuk kinerja optimal. Proses autentikasi menggunakan kunci API daripada alur OAuth yang digunakan beberapa layanan lain, menyederhanakan integrasi sambil menjaga keamanan.

Melakukan Panggilan API Pertama Anda

Dengan kunci API dan titik akhir yang telah Anda konfigurasi, Anda siap untuk membuat permintaan pertama Anda. Berikut adalah contoh Python dasar yang mendemonstrasikan percakapan sederhana:

"""
Environment variables (per official docs):
  DASHSCOPE_API_KEY: Your API Key from https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.
  DASHSCOPE_MODEL: (optional) Model name; override for different models.
  DASHSCOPE_BASE_URL:
    - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY is required. "
        "Set it via: export DASHSCOPE_API_KEY='your-api-key'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Introduce Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Full reasoning trace
answer_content = ""  # Full response
is_answering = False  # Whether we have entered the answer phase
print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nUsage:")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Collect reasoning content only
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Received content, start answer phase
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

Untuk pengembang yang lebih memilih panggilan HTTP langsung, berikut adalah perintah curl yang setara:

curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "Explain quantum computing in simple terms"}]
}'

Struktur respons mengikuti format standar OpenAI, sehingga mudah diintegrasikan dengan basis kode yang ada yang mengharapkan respons penyelesaian obrolan.

Fitur Lanjutan: Mode Berpikir

Salah satu fitur Qwen3.5 yang paling kuat adalah mode berpikir, yang memungkinkan model untuk melakukan penalaran langkah demi langkah sebelum menghasilkan jawaban. Ini terbukti sangat berharga untuk masalah matematika yang kompleks, penalaran logis, dan analisis multi-langkah di mana menunjukkan proses penalaran meningkatkan kualitas hasil.

Untuk mengaktifkan mode berpikir, sertakan parameter enable_thinking dalam permintaan Anda:

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "If a train travels 120km in 1.5 hours, what is its average speed?"}
    ],
    extra_body={
        'enable_thinking': True,
        'thinking_budget': 81920
    }
)

Parameter thinking_budget mengontrol berapa banyak alokasi token yang dapat digunakan model untuk penalaran. Anggaran yang lebih tinggi memungkinkan penalaran yang lebih menyeluruh tetapi meningkatkan konsumsi token dan waktu respons. Untuk kueri sederhana, anggaran yang lebih rendah sudah cukup, sementara masalah kompleks mendapat manfaat dari alokasi yang lebih besar.

Mengimplementasikan Kapabilitas Penglihatan Multimodal

Varian yang mendukung penglihatan—qwen3-vl-plus dan qwen3-vl-flash—memperluas kapabilitas API untuk memahami gambar. Model-model ini dapat menganalisis gambar, mendeskripsikan konten visual, menjawab pertanyaan tentang gambar, dan mengekstrak informasi dari foto atau diagram. Ini membuka kemungkinan untuk aplikasi seperti pembuatan keterangan gambar otomatis, pencarian visual, pemrosesan dokumen dengan diagram, dan alat aksesibilitas.

Berikut cara mengirim gambar untuk dianalisis:

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/sample-image.jpg"}},
            {"type": "text", "text": "Describe what you see in this image"}
        ]
    }
]

completion = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=messages
)

Anda dapat menyediakan URL gambar atau data gambar yang dikodekan base64 langsung dalam permintaan. Model memproses gambar bersama dengan perintah teks Anda, menghasilkan respons yang merujuk pada elemen visual dalam gambar. Kapabilitas ini terbukti sangat berharga untuk membangun bot layanan pelanggan yang dapat memproses tangkapan layar yang diunggah, sistem moderasi otomatis, dan alat pendidikan yang menjelaskan konten visual.

Panggilan Fungsi untuk Integrasi Alat

Panggilan fungsi memungkinkan Qwen3.5 untuk secara cerdas memanggil alat dan API eksternal berdasarkan permintaan pengguna. Ini menjembatani kesenjangan antara AI percakapan dan fungsionalitas dunia nyata, memungkinkan aplikasi Anda untuk melakukan tindakan seperti membuat kueri basis data, memanggil API pihak ketiga, atau mengesekusi logika bisnis kustom.

Untuk mengimplementasikan panggilan fungsi, pertama-tama definisikan alat yang tersedia dalam permintaan Anda:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a specified location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "City name, e.g., San Francisco"
                    }
                },
                "required": ["location"]
            }
        }
    }
]

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "What's the weather like in Tokyo?"}
    ],
    tools=tools
)

Ketika model menentukan bahwa panggilan fungsi sesuai, respons akan menyertakan objek panggilan alat daripada pesan teks. Aplikasi Anda kemudian mengeksekusi fungsi dan mengembalikan hasilnya, memungkinkan model untuk menghasilkan respons kontekstual akhir. Pola ini memungkinkan alur kerja yang canggih seperti sistem pemesanan, aplikasi pengambilan data, dan asisten interaktif yang dapat melakukan tindakan berarti.

Respons Streaming untuk Aplikasi Real-Time

Untuk aplikasi di mana latensi yang dirasakan penting—seperti chatbot, asisten penulisan, dan alat interaktif—respons streaming memberikan pengalaman pengguna yang lebih baik dengan menampilkan teks saat dibuat daripada menunggu respons lengkap.

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Write a short story about a robot learning to paint"}
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Streaming mengurangi waktu tunggu pengguna sebelum melihat keluaran yang bermakna, terutama bermanfaat untuk respons yang lebih panjang. Protokol streaming mengirimkan potongan-potongan saat dihasilkan, memungkinkan tampilan progresif sementara model terus memproses.

Optimisasi Biaya dengan Penyimpanan Konteks

Qwen3.5 menawarkan penghematan biaya yang signifikan melalui caching konteks, fitur yang mengurangi biaya untuk aplikasi dengan konteks berulang. Ketika Anda mengirim pesan yang berbagi prompt sistem umum atau dokumen dasar, cache menyimpan konteks ini untuk digunakan kembali. Permintaan berikutnya yang mereferensikan konten cache yang sama akan menerima diskon besar—20% dari harga standar untuk caching implisit dan 10% untuk manajemen cache eksplisit.

Fitur ini terbukti sangat berharga untuk aplikasi seperti sistem Tanya Jawab dokumen, di mana dokumen dasar tetap konstan sementara pertanyaan pengguna bervariasi. Alih-alih mengirim ulang seluruh dokumen dengan setiap kueri, Anda mereferensikan konteks yang di-cache, secara dramatis mengurangi biaya token dalam skala besar.

Memilih Model yang Tepat untuk Kebutuhan Anda

Memilih varian Qwen3.5 yang sesuai tergantung pada kebutuhan spesifik Anda. Berikut adalah panduan praktis:

Model	Tipe	Parameter	Terbaik Untuk
Qwen3.5-397B-A17B	Gambar-Teks-ke-Teks	403B	Kapabilitas maksimum, penalaran kompleks
Qwen3.5-397B-A17B-FP8	Gambar-Teks-ke-Teks	403B	Kapabilitas tinggi dengan penyimpanan yang dioptimalkan
Qwen3.5-122B-A10B	Gambar-Teks-ke-Teks	125B	Kinerja dan efisiensi yang seimbang
Qwen3.5-35B-A3B	Gambar-Teks-ke-Teks	36B	Hemat biaya, tugas tujuan umum
Qwen3.5-35B-A3B-Base	Gambar-Teks-ke-Teks	36B	Model dasar untuk fine-tuning
Qwen3.5-27B	Gambar-Teks-ke-Teks	28B	Aplikasi ringan

Qwen3.5-397B-A17B

Model unggulan dengan 403 miliar parameter, dirancang untuk kapabilitas maksimum dalam penalaran kompleks, analisis data skala besar, dan tugas pemecahan masalah tingkat lanjut.

Qwen3.5-397B-A17B-FP8

Kapabilitas yang sama dengan model 397B dengan kuantisasi FP8 yang dioptimalkan untuk penyimpanan yang lebih kecil dan inferensi yang lebih cepat sambil mempertahankan kualitas tinggi.

Qwen3.5-122B-A10B

Model 125 miliar parameter yang seimbang, menawarkan kinerja kuat di berbagai tugas umum dengan persyaratan sumber daya yang wajar.

Qwen3.5-35B-A3B (Qwen3.5 Flash)

Model 36 miliar parameter yang paling serbaguna, ideal untuk aplikasi tujuan umum, chatbot, dan penerapan produksi yang hemat biaya.

Qwen3.5-35B-A3B-Base

Versi model dasar dari varian 35B, sempurna untuk fine-tuning pada dataset spesifik domain untuk menciptakan solusi AI kustom.

Qwen3.5-27B

Model 28 miliar parameter yang ringan, dirancang untuk lingkungan dengan sumber daya terbatas dan aplikasi di mana kecepatan sangat penting.

Untuk sebagian besar aplikasi umum, Qwen3.5 Flash (Qwen3.5-35B-A3B) memberikan keseimbangan terbaik antara kapabilitas dan biaya. Jika Anda memerlukan kinerja maksimum untuk tugas penalaran kompleks, model 397B memberikan kapabilitas tertinggi. Varian 122B menawarkan titik tengah antara kinerja dan persyaratan sumber daya.

Kesimpulan

API Qwen3.5 Flash menawarkan kepada pengembang solusi yang kuat, fleksibel, dan hemat biaya untuk mengintegrasikan kapabilitas AI canggih ke dalam aplikasi. Dengan antarmuka yang kompatibel dengan OpenAI, tingkat gratis yang murah hati, dan berbagai model khusus, memulai membutuhkan upaya minimal sambil menawarkan jalur menuju implementasi yang canggih. Baik Anda membangun chatbot sederhana atau aplikasi multimodal yang kompleks, Qwen3.5 Flash menyediakan fondasi untuk pengalaman bertenaga AI yang menarik.

Kunci keberhasilan implementasi terletak pada pemahaman persyaratan spesifik Anda—sensitivitas latensi, batasan anggaran, dan kebutuhan fungsional—dan memilih varian model serta konfigurasi yang sesuai. Mulailah dengan tingkat gratis di wilayah Singapura untuk menjelajahi kapabilitas, lalu optimalkan implementasi Anda berdasarkan pengamatan kinerja dan biaya di dunia nyata.

Sederhanakan alur kerja pengembangan API Anda dengan Apidog. Dari merancang skema API hingga men-debug titik akhir dan menghasilkan dokumentasi, Apidog membantu Anda membangun integrasi yang andal lebih cepat. Ini adalah platform lengkap yang membuat bekerja dengan Qwen3.5 dan API lainnya menjadi mudah.

tombol