Cara Menggunakan Model Qwen3.5 Gratis dengan Ollama

Ashley Innocent

Ashley Innocent

25 February 2026

Cara Menggunakan Model Qwen3.5 Gratis dengan Ollama

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Para pengembang terus mencari AI tingkat terdepan yang menyeimbangkan kecerdasan murni dengan biaya nol di muka. Model Qwen3.5 menghadirkan hal tersebut melalui Ollama. Dirilis oleh Alibaba, agen multimodal dengan bobot terbuka ini menetapkan standar baru dalam penalaran, pengkodean, visi, dan penggunaan alat. Anda menjalankannya secara instan melalui tag cloud Ollama—tidak perlu unduhan besar-besaran, tidak perlu kluster GPU perusahaan.

đź’ˇ
Sebelum Anda mulai dengan perintah pertama Anda, unduh Apidog secara gratis. Platform API intuitif ini memungkinkan Anda mendesain, mengirim, dan men-debug endpoint REST Ollama dengan model qwen3.5 dalam hitungan detik. Anda dapat memvisualisasikan penyelesaian obrolan, respons streaming, dan panggilan alat tanpa harus bergulat dengan cURL atau JSON mentah. Apidog mengubah server Ollama menjadi lingkungan pengujian siap produksi, dan tidak memerlukan biaya untuk memulai. Dapatkan sekarang di apidog.com dan biarkan tetap terbuka saat Anda mengikuti panduan ini—langkah-langkah penyiapan kecil seperti ini menciptakan peningkatan alur kerja yang besar.

button

Anda mendapatkan akses langsung ke model MoE hibrida 397B-A17B yang hanya mengaktifkan 17B parameter per *forward pass*. Arsitektur ini menggabungkan atensi linier Gated DeltaNet dengan *sparse mixture-of-experts routing*, memberikan *throughput* 8,6 kali lebih cepat daripada Qwen3-Max sebelumnya pada konteks 32K dan 19 kali pada 256K. Tolok ukur mengkonfirmasi keunggulannya: MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0, dan Tool Decathlon 38.3. Oleh karena itu, Anda dapat bereksperimen dengan agen visi-bahasa asli dan dukungan 201 bahasa di tingkat gratis Ollama sebelum Anda mempertimbangkan peningkatan berbayar.

Panduan ini mencakup setiap detail teknis yang Anda butuhkan. Anda akan menginstal Ollama, menarik tag yang tepat, berinteraksi melalui CLI dan API, mengintegrasikan Apidog untuk pengujian yang ketat, membangun aplikasi nyata, mengoptimalkan kinerja, dan memecahkan masalah umum. Pada akhirnya, Anda akan menerapkan alur kerja yang didukung qwen3.5 yang menyaingi raksasa cloud namun tetap berada dalam batas penggunaan gratis.

Apa yang Membuat Qwen3.5 Menjadi Kekuatan Teknis

Qwen3.5 meningkatkan seri ini dengan pelatihan awal pada korpora multilingual, STEM, dan penalaran yang diperkaya di bawah penyaringan yang lebih ketat. Para insinyur meningkatkan pembelajaran penguatan di lingkungan jutaan agen, memprioritaskan kesulitan dan generalisasi di atas metrik sempit. Hasilnya: kesamaan lintas generasi dengan model yang melebihi 1T parameter sambil menjaga efisiensi.

Grafik Pelatihan Awal Qwen3.5

Varian unggulan—Qwen3.5-397B-A17B—menggunakan mekanisme atensi hibrida. Atensi linier melalui Gated Delta Networks menangani urutan panjang, sementara MoE jarang mengarahkan token ke pakar khusus. Kosakata diperluas hingga 250K token, meningkatkan efisiensi pengkodean sebesar 10–60% di berbagai bahasa. Pelatihan multimodal *early-fusion* asli menggabungkan token teks dan visi sejak awal, mencapai efisiensi pelatihan 100% dibandingkan dengan *pipeline* teks-saja.

Di Ollama, Anda mengakses dua tag siap pakai:

Keduanya mengekspos pemikiran (rantai-pemikiran), alat (pencarian web, *interpreter* kode), dan perilaku agen secara *out-of-the-box*. Oleh karena itu, Anda dapat beralih antara jawaban cepat dan penalaran mendalam dengan satu parameter.

Benchmark Qwen3.5

Tolok ukur berbicara banyak. Dalam pengkodean, Qwen3.5 mencetak 76.4 pada SWE-bench Verified dan 83.6 pada LiveCodeBench v6. Matematika mencapai 91.3 pada AIME26 dan 94.8 pada HMMT. Tugas visi mencapai 93.1 pada OCRBench dan 88.6 pada MathVision. Metrik agen mencakup 72.9 pada BFCL-V4 dan 86.7 pada TAU2-Bench. Cakupan multilingual mencakup 201 bahasa dengan skor tertinggi pada MMMLU (88.5) dan WMT24++ (78.9). Anda mengakses kinerja ini melalui perintah ollama run sederhana pada tingkat gratis.

Mengapa Ollama Memberikan Akses Gratis ke Qwen3.5

Ollama mengabstraksi manajemen model menjadi satu biner. Anda menjalankan perintah yang sama apakah bobotnya berada di disk Anda atau infrastruktur cloud Ollama. Paket gratis memberikan penggunaan ringan model cloud—sempurna untuk eksplorasi, prototipe, dan beban kerja sedang. Oleh karena itu, Anda melewati ukuran mentah 807 GB dari model 397B penuh dan mulai mengirimkan prompt dalam hitungan detik.

Qwen 3.5 di Ollama

Model lokal tetap tidak terbatas setelah diunduh, tetapi untuk qwen3.5, tag resmi mengarah ke Ollama Cloud. Impor komunitas seperti frob/qwen3.5 (GGUF quants) memungkinkan Anda menjalankan versi terkuantisasi secara lokal jika Anda memiliki RAM yang cukup (214 GB+ untuk MXFP4 4-bit). Anda memilih jalur yang sesuai dengan perangkat keras dan pola penggunaan Anda. Ollama menangani routing secara transparan.

Selain itu, Ollama mengekspos API REST yang kompatibel dengan OpenAI sepenuhnya pada port 11434. Anda mengintegrasikan qwen3.5 ke dalam bahasa atau kerangka kerja apa pun tanpa mengubah kode klien. Apidog membuat integrasi tersebut sangat kuat dengan memungkinkan Anda meniru respons, memvalidasi skema, dan menghasilkan koleksi pengujian secara otomatis.

Persyaratan Sistem dan Prasyarat

Tag cloud hampir tidak memaksakan persyaratan lokal. Anda hanya membutuhkan:

Untuk menjalankan GGUF komunitas secara lokal, Anda menghitung kebutuhan VRAM dengan cermat. Kuantisasi MXFP4 4-bit dari varian 397B-A17B menempati sekitar 214 GB disk dan membutuhkan RAM sistem ~256 GB dengan *MoE offloading* untuk 25+ token/detik pada Mac kelas atas. Varian padat yang lebih kecil dari seri Qwen sebelumnya (jika di-porting) akan berskala linier. Oleh karena itu, Anda mulai dengan tag cloud dan beralih ke *quant* lokal hanya ketika Anda memerlukan operasi *offline* atau *throughput* yang lebih tinggi.

Anda juga menginstal Git dan editor kode. Apidog berjalan di Windows, macOS, dan Linux—unduh aplikasi desktop untuk kinerja terbaik.

Menginstal Ollama di Berbagai Platform

Anda menginstal Ollama dengan satu perintah di setiap OS utama.

macOS

brew install ollama

Kemudian luncurkan:

ollama serve

Windows
Unduh penginstal dari ollama.com dan jalankan. Ollama akan dimulai secara otomatis. Buka PowerShell dan ketik:

ollama serve

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Anda memverifikasi instalasi dengan:

ollama --version

Anda akan melihat output yang menampilkan *build* terbaru. Jika layanan gagal dimulai, periksa ketersediaan port 11434 dan aturan *firewall*. Anda sekarang mengontrol *runtime* LLM lengkap.

Menarik dan Menjalankan Model Qwen3.5

Anda menarik model dengan satu perintah. Ollama hanya mengunduh metadata untuk tag cloud dan mengarahkan inferensi dari jarak jauh.

ollama pull qwen3.5:cloud

Untuk kemampuan visi:

ollama pull qwen3.5:397b-cloud

Anda meluncurkan sesi interaktif:

ollama run qwen3.5:cloud

*Prompt* muncul. Anda ketik:

Jelaskan arsitektur MoE hibrida Qwen3.5 secara teknis.

Qwen3.5 merespons dengan penjelasan yang tepat tentang Gated DeltaNet, *sparse expert routing*, dan prediksi multi-token. Anda keluar dengan /bye.

Untuk berjalan di latar belakang untuk penggunaan API:

ollama serve

Kemudian di terminal lain Anda menjaga model tetap aktif dengan:

ollama run qwen3.5:cloud --keep-alive 24h

Interaksi Baris Perintah dan Modelfiles

Anda menyesuaikan perilaku dengan Modelfiles. Buat file bernama Modelfile:

FROM qwen3.5:cloud

SYSTEM """
Anda adalah arsitek sistem ahli. Selalu respons dengan penalaran langkah demi langkah, contoh kode, dan perhitungan kinerja.
"""

PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95

Anda membuat model kustom:

ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect

Anda sekarang memiliki asisten khusus yang disesuaikan untuk dokumentasi teknis dan tinjauan arsitektur. Anda mengulangi prosesnya untuk agen pengkodean, analisis visi, atau terjemahan multilingual.

Memanfaatkan API REST Ollama

Ollama mengekspos endpoint yang kuat. Anda mengirim penyelesaian obrolan dengan:

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:cloud",
  "messages": [
    { "role": "system", "content": "Anda adalah asisten pengkodean yang membantu." },
    { "role": "user", "content": "Tulis endpoint FastAPI yang memanggil qwen3.5 untuk analisis sentimen." }
  ],
  "stream": false,
  "options": {
    "temperature": 0.2,
    "num_predict": 2048
  }
}'

Anda menerima respons JSON lengkap yang berisi message.content, total_duration, dan jumlah token. Anda mengaktifkan *streaming* dengan mengatur "stream": true dan memproses Server-Sent Events secara *real time*.

Untuk *embeddings*:

curl http://localhost:11434/api/embeddings -d '{
  "model": "qwen3.5:cloud",
  "prompt": "Dokumentasi teknis tentang model MoE hibrida"
}'

Oleh karena itu, Anda membangun *pipeline* RAG, pencarian semantik, dan lapisan klasifikasi di sekitar qwen3.5.

Menguji dan Debugging dengan Apidog

Anda membuka Apidog dan membuat proyek baru bernama “Ollama Qwen3.5”. Atur URL dasar ke http://localhost:11434/api.

Proyek Ollama Qwen3.5 di Apidog

Anda menambahkan *endpoint* /chat:

Anda mengimpor spesifikasi Ollama OpenAPI resmi jika tersedia atau membangun koleksi secara manual. Apidog secara otomatis menghasilkan kasus uji, memvalidasi skema JSON, dan mendukung variabel lingkungan untuk beralih antara qwen3.5:cloud dan Modelfiles kustom.

Anda membuat koleksi “Tugas Visi” dan menguji masukan multimodal:

{
  "model": "qwen3.5:397b-cloud",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Jelaskan diagram ini secara detail." },
        { "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
      ]
    }
  ]
}

Apidog menampilkan pratinjau gambar, mengirim permintaan, dan memungkinkan Anda memeriksa penggunaan token, latensi, dan jejak penalaran. Anda menyimpan *assertion* untuk waktu respons < 5 detik dan keberadaan istilah teknis. Anda mengekspor koleksi sebagai dokumentasi Markdown atau membagikannya dengan tim Anda.

Oleh karena itu, Anda menghilangkan dugaan. Setiap parameter, setiap bidang respons, dan setiap kesalahan menjadi terlihat dan dapat direproduksi. Perbaikan kecil di Apidog—seperti menambahkan skrip pra-permintaan untuk menghangatkan model—beralih ke keandalan tingkat produksi.

Membangun Aplikasi Nyata dengan Qwen3.5 dan Ollama

Anda mengintegrasikan qwen3.5 ke dalam aplikasi Python menggunakan klien resmi:

import ollama
from fastapi import FastAPI

app = FastAPI()

@app.post("/analyze")
async def analyze_code(request: dict):
    response = ollama.chat(
        model='qwen3.5:cloud',
        messages=[{'role': 'user', 'content': request['code']}],
        options={'temperature': 0.1}
    )
    return {"analysis": response['message']['content']}

Anda mengekspos *endpoint* ini, menambahkan pembatasan laju (*rate limiting*), dan memantau konsumsi token melalui Apidog.

Untuk Node.js Anda menggunakan paket npm ollama dan melakukan *streaming* respons ke *frontend* React. Anda menerapkan pemanggilan alat dengan mendefinisikan fungsi dalam permintaan dan mengurai tool_calls dari output model. Qwen3.5 secara asli mendukung penggunaan alat adaptif, sehingga Anda dapat merangkai pencarian web, eksekusi kode, dan analisis file menjadi agen otonom.

Anda mengontainerkan seluruh *stack* dengan Docker Compose:

services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
  apidog-tests:
    image: your-test-image
    depends_on:
      - ollama

Oleh karena itu, Anda menyebarkan lingkungan yang konsisten di seluruh pengembangan, *staging*, dan produksi.

Fitur Lanjutan: Penggunaan Alat, Visi, dan Konteks Panjang

Anda mengaktifkan mode berpikir dengan menyertakan enable_thinking: true di klien yang kompatibel atau dengan *prompting* secara eksplisit. Model menghasilkan tag <thinking> sebelum jawaban akhir, memberi Anda visibilitas ke dalam rantai penalarannya.

Untuk visi, Anda mengirim gambar atau URL base64. Tag 397b-cloud memproses bagan, tangkapan layar kode, dan dokumen dengan akurasi MMMU 85.0. Oleh karena itu, Anda membangun *pipeline* pemahaman dokumen yang mengekstrak tabel, diagram, dan catatan tulisan tangan.

Penanganan konteks panjang mencapai 256K token di Ollama. Anda dapat memasukkan seluruh basis kode atau makalah penelitian dan meminta ringkasan, analisis perbedaan, atau refactoring arsitektur. Anda memantau penggunaan konteks dengan bidang context dalam respons dan menerapkan strategi *sliding-window* ketika Anda mendekati batas.

Optimasi Kinerja dan Pemecahan Masalah

Anda menjaga model tetap aktif dengan --keep-alive. Anda mengurangi latensi dengan mengatur num_predict yang lebih rendah untuk tugas-tugas sederhana dan lebih tinggi untuk penalaran yang kompleks.

Masalah umum dan perbaikannya:

Anda mencatat setiap panggilan API melalui Apidog untuk dengan cepat mengidentifikasi hambatan. Oleh karena itu, Anda mempertahankan waktu aktif yang tinggi bahkan pada paket gratis.

Kesimpulan

Anda sekarang memiliki peta jalan teknis lengkap untuk menggunakan model qwen3.5 secara gratis dengan Ollama. Anda telah menginstal *runtime*, menarik tag cloud, menguasai interaksi CLI dan API, mempercepat pengujian dengan Apidog, membangun aplikasi produksi, dan mengoptimalkan untuk beban kerja nyata. Setiap langkah memanfaatkan perintah aktif, parameter yang tepat, dan hasil yang terukur.

Tindakan kecil—mengunduh Apidog, membuat satu Modelfile, atau menambahkan satu *assertion*—berkumpul menjadi produktivitas transformatif. Anda bereksperimen dengan agen multimodal terdepan hari ini tanpa kartu kredit atau tiket infrastruktur. Tingkat gratis Ollama menghilangkan setiap hambatan.

button

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.