Cara Menggunakan Qwen 3.5 dengan Ollama

Ashley Innocent

Ashley Innocent

3 March 2026

Cara Menggunakan Qwen 3.5 dengan Ollama

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Inti Singkat

Ollama menyediakan cara termudah untuk menjalankan model kecil Qwen 3.5 (0.8B, 2B, 4B, dan 9B) secara lokal di mesin Mac, Linux, atau Windows Anda. Dengan perintah ollama run yang sederhana, Anda dapat mengakses fitur AI yang mumpuni tanpa biaya API cloud. Unduh Ollama, tarik model, dan mulai mengobrol dalam waktu kurang dari 5 menit.

Pendahuluan

Menjalankan model bahasa besar secara lokal telah menjadi sangat populer, dan Ollama membuatnya mudah. Jika Anda ingin menggunakan model Qwen 3.5 dari Alibaba tanpa mengirim data ke cloud atau membayar biaya per-token, Ollama adalah jawabannya.

💡
Saat membangun aplikasi yang memanggil LLM lokal seperti Qwen 3.5 melalui API Ollama, Anda akan memerlukan cara yang andal untuk menguji dan memvalidasi respons. Alat pengujian API Apidog memungkinkan Anda menyiapkan pengujian otomatis untuk titik akhir API Ollama Anda, memastikan respons benar dan memenuhi harapan Anda. Buat pernyataan pengujian untuk waktu respons, struktur konten, dan penanganan kesalahan—lompat ke bagian API Ollama untuk melihat cara menguji penyiapan Anda.
button

Panduan ini akan memandu Anda melalui semua yang perlu Anda ketahui tentang menjalankan model kecil Qwen 3.5 dengan Ollama. Baik Anda membutuhkan model 0.8B yang ringkas untuk tugas cepat atau model 9B yang lebih besar untuk penalaran kompleks, kami akan membahas instalasi, penggunaan, dan integrasi.

Mengapa Menggunakan Ollama untuk Qwen 3.5

Ollama telah menjadi solusi utama untuk penyebaran LLM lokal:

Penyiapan Sederhana
Tidak ada penyiapan Docker atau Python yang rumit. Unduh satu aplikasi dan Anda siap.

Prioritas Privasi
Data Anda tetap berada di mesin Anda. Ini penting untuk data bisnis atau hal sensitif lainnya.

Tanpa Biaya API
Setelah mengunduh model, menjalankannya gratis. Tidak ada biaya per-token atau langganan.

Kemampuan Offline
Gunakan AI di mana saja, bahkan tanpa internet.

Akselerasi Perangkat Keras
Ollama secara otomatis menggunakan akselerasi GPU jika tersedia, membuat inferensi lokal menjadi cepat.

Menginstal Ollama

Instalasi di Mac

Jika Anda memiliki Mac, instalasinya hanya membutuhkan beberapa detik:

# Unduh dari ollama.com atau gunakan Homebrew
brew install ollama

Hanya itu. Ollama akan secara otomatis mendeteksi Apple Silicon (M1/M2/M3) dan menggunakan Metal untuk akselerasi GPU.

Instalasi di Linux

Untuk server Linux atau WSL:

# Instalasi cepat
curl -fsSL https://ollama.com/install.sh | sh

Instalasi di Windows

Pengguna Windows dapat mengunduh penginstal. Versi Windows mendukung akselerasi GPU melalui DirectML.

Verifikasi

Setelah instalasi, verifikasi semuanya berfungsi:

ollama --version

Anda akan melihat nomor versi. Sekarang mari kita tarik beberapa model Qwen.

Menjalankan Model Qwen 3.5

Menarik Model Pertama Anda

Ollama membuat pengunduhan model menjadi sederhana:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

Setiap pengunduhan model membutuhkan beberapa menit tergantung pada kecepatan internet Anda. Model 2B berukuran sekitar 1.5GB, sedangkan model 9B sekitar 5GB.

Memulai Sesi Obrolan

Setelah ditarik, segera mulai mengobrol:

ollama run qwen3.5:9b

Anda akan melihat prompt tempat Anda dapat mengetik langsung:

>>> Apa itu komputasi kuantum dalam istilah sederhana?
Komputasi kuantum adalah jenis komputasi di mana...

Ketik pertanyaan Anda dan tekan Enter. Tekan Ctrl+D untuk keluar.

Mencantumkan Model yang Tersedia

Lihat apa yang telah Anda instal:

ollama list

Output menunjukkan setiap model, ukurannya, dan kapan terakhir Anda menggunakannya.

Menghapus Model

Kosongkan ruang disk dengan menghapus model yang tidak Anda butuhkan:

ollama remove qwen3.5:9b

Perbandingan dan Pemilihan Model

Memilih model yang tepat tergantung pada perangkat keras dan kasus penggunaan Anda:

Model Parameter Ukuran Model Kira-kira (BF16, presisi penuh) RAM yang Dibutuhkan (BF16, panduan Unsloth) Terbaik untuk
Qwen3.5-0.8B 0.8B ~1.6 GB ~9 GB Perangkat ultra-ringan & seluler: pelengkapan otomatis cepat, chatbot sederhana, alat kecil, visi/OCR dasar pada perangkat sangat rendah.
Qwen3.5-2B 2B ~4 GB ~9 GB Asisten ringan, agen kecil, bantuan coding dasar, multimodal yang lumayan pada laptop dengan RAM sedang.
Qwen3.5-4B 4B ~8 GB ~14 GB Pembantu pengembang "pelengkapan otomatis cerdas", agen ringan, penalaran dan multimodal yang lebih baik dari 2B namun tetap mudah dijalankan secara lokal.
Qwen3.5-9B 9B ~18 GB ~19 GB Asisten umum yang kuat, multilingual + visi yang baik, dapat digunakan sebagai AI lokal utama pada mesin dengan RAM/VRAM 16–24 GB.

Rekomendasi untuk sebagian besar pengguna: Mulailah dengan qwen2.5:2b. Ini menawarkan keseimbangan terbaik antara kemampuan dan kecepatan. Tingkatkan ke 4B atau 9B hanya jika Anda membutuhkan kekuatan penalaran yang lebih besar.

API Ollama untuk Pengembang

Ollama menjalankan server API lokal yang dapat dipanggil oleh aplikasi Anda. Ini sempurna untuk mengintegrasikan Qwen 3.5 ke dalam proyek Anda.

Memulai Server API

Ollama berjalan sebagai layanan latar belakang secara default. API tersedia di:

http://localhost:11434

Penyelesaian Obrolan Dasar

Kirim permintaan ke titik akhir obrolan:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "Apa itu Python?"}
    ],
    "stream": false
  }'

Respons:

Respons Streaming

Untuk output real-time, aktifkan streaming:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Hitung sampai 5"}],
    "stream": true
  }'

Ini melakukan streaming token saat token dihasilkan.

Titik Akhir Generasi

Untuk prompt non-obrolan:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Tulis haiku tentang coding",
    "stream": false
  }'

Mengintegrasikan dengan Aplikasi Anda

Integrasi Python

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Jelaskan rekursi"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

Integrasi JavaScript/Node.js

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'Apa itu API?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Menguji Integrasi Anda dengan Apidog

Saat membangun aplikasi yang memanggil Ollama, gunakan alat pengujian API untuk memvalidasi respons. Berikut cara menguji API Ollama Anda dengan Apidog:

  1. Buat permintaan POST baru ke http://localhost:11434/api/chat
  2. Atur Content-Type ke application/json
  3. Tambahkan isi permintaan:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Halo"}],
  "stream": false
}

Apidog memungkinkan Anda membuat kasus uji otomatis yang memvalidasi kualitas respons, menguji prompt yang berbeda, dan memantau titik akhir LLM lokal Anda. Ini memastikan integrasi Anda berfungsi dengan andal dalam produksi.

Kinerja dan Persyaratan Perangkat Keras

Akselerasi GPU

Ollama secara otomatis menggunakan GPU jika tersedia:

Kinerja yang Diharapkan

Model GPU Token/detik (kira-kira)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

Inferensi hanya dengan CPU akan secara signifikan lebih lambat (5-10x).

Persyaratan Memori

RAM minimum berdasarkan model:

Memiliki RAM lebih dari minimum membantu dalam responsivitas.

Memecahkan Masalah Umum

"Ollama tidak ditemukan"

Pastikan Ollama ada di PATH Anda. Di Mac/Linux, restart terminal Anda setelah instalasi.

Kinerja Lambat

  1. Periksa apakah GPU sedang digunakan: ollama list menampilkan informasi model
  2. Untuk hanya CPU: harapkan kecepatan lebih lambat
  3. Tutup aplikasi GPU lainnya

Pengunduhan Model Gagal

Coba lagi dengan internet yang lebih cepat. Jika menggunakan VPN, coba tanpa VPN.

Koneksi API Ditolak

Pastikan Ollama sedang berjalan: ollama serve (biasanya berjalan secara otomatis)

Memori Habis

Gunakan model yang lebih kecil. Model 9B membutuhkan RAM yang signifikan. Tutup aplikasi lain.

Kesimpulan

Ollama membuat menjalankan model Qwen 3.5 secara lokal menjadi mudah. Baik Anda seorang pengembang yang membangun aplikasi AI atau hanya ingin bereksperimen dengan LLM lokal, prosesnya hanya membutuhkan beberapa menit, bukan berjam-jam.

Kombinasi kemampuan multilingual yang kuat dari Qwen 3.5 dan antarmuka sederhana Ollama menjadikan ini salah satu cara termudah untuk memulai dengan AI lokal.

Langkah selanjutnya: Setelah Anda menyiapkan API Ollama Anda, gunakan Apidog untuk membuat kasus uji otomatis yang memvalidasi kualitas respons, menguji prompt yang berbeda, dan memantau titik akhir LLM lokal Anda. Mulai dengan Apidog secara gratis.

button

FAQ

Apa perbedaan antara Ollama dan metode penyebaran lainnya?

Ollama dirancang untuk kesederhanaan. Berbeda dengan Docker atau penyebaran model manual, Ollama menangani semuanya (pengunduhan model, akselerasi GPU, penyediaan API) dengan perintah sederhana.

Dapatkah saya menggunakan Ollama dengan model Qwen lainnya?

Ya, Ollama mendukung banyak model. Periksa ollama.com/library untuk daftar lengkapnya.

Bagaimana cara memperbarui model Qwen di Ollama?

Tarik versi terbaru: ollama pull qwen2.5:2b. Ini mengunduh pembaruan jika tersedia.

Dapatkah saya menjalankan beberapa model sekaligus?

Ya, tetapi setiap model menggunakan memori. Sebagian besar sistem dapat menjalankan 1-2 model secara bersamaan.

Apakah data saya aman dengan Ollama?

Ya. Semuanya berjalan secara lokal. Tidak ada data yang dikirim ke server eksternal.

Dapatkah saya melakukan fine-tune model Qwen menggunakan Ollama?

Ollama hanya untuk inferensi. Untuk fine-tuning, Anda akan membutuhkan alat lain seperti adaptor LoRA.

Bagaimana cara mengubah port yang digunakan Ollama?

Atur variabel lingkungan OLLAMA_HOST sebelum menjalankan: export OLLAMA_HOST=0.0.0.0:8080

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.