Inti Singkat
Ollama menyediakan cara termudah untuk menjalankan model kecil Qwen 3.5 (0.8B, 2B, 4B, dan 9B) secara lokal di mesin Mac, Linux, atau Windows Anda. Dengan perintah ollama run yang sederhana, Anda dapat mengakses fitur AI yang mumpuni tanpa biaya API cloud. Unduh Ollama, tarik model, dan mulai mengobrol dalam waktu kurang dari 5 menit.

Pendahuluan
Menjalankan model bahasa besar secara lokal telah menjadi sangat populer, dan Ollama membuatnya mudah. Jika Anda ingin menggunakan model Qwen 3.5 dari Alibaba tanpa mengirim data ke cloud atau membayar biaya per-token, Ollama adalah jawabannya.
Panduan ini akan memandu Anda melalui semua yang perlu Anda ketahui tentang menjalankan model kecil Qwen 3.5 dengan Ollama. Baik Anda membutuhkan model 0.8B yang ringkas untuk tugas cepat atau model 9B yang lebih besar untuk penalaran kompleks, kami akan membahas instalasi, penggunaan, dan integrasi.
Mengapa Menggunakan Ollama untuk Qwen 3.5
Ollama telah menjadi solusi utama untuk penyebaran LLM lokal:
Penyiapan Sederhana
Tidak ada penyiapan Docker atau Python yang rumit. Unduh satu aplikasi dan Anda siap.
Prioritas Privasi
Data Anda tetap berada di mesin Anda. Ini penting untuk data bisnis atau hal sensitif lainnya.
Tanpa Biaya API
Setelah mengunduh model, menjalankannya gratis. Tidak ada biaya per-token atau langganan.
Kemampuan Offline
Gunakan AI di mana saja, bahkan tanpa internet.
Akselerasi Perangkat Keras
Ollama secara otomatis menggunakan akselerasi GPU jika tersedia, membuat inferensi lokal menjadi cepat.
Menginstal Ollama
Instalasi di Mac
Jika Anda memiliki Mac, instalasinya hanya membutuhkan beberapa detik:
# Unduh dari ollama.com atau gunakan Homebrew
brew install ollama
Hanya itu. Ollama akan secara otomatis mendeteksi Apple Silicon (M1/M2/M3) dan menggunakan Metal untuk akselerasi GPU.
Instalasi di Linux
Untuk server Linux atau WSL:
# Instalasi cepat
curl -fsSL https://ollama.com/install.sh | sh
Instalasi di Windows
Pengguna Windows dapat mengunduh penginstal. Versi Windows mendukung akselerasi GPU melalui DirectML.

Verifikasi
Setelah instalasi, verifikasi semuanya berfungsi:
ollama --version
Anda akan melihat nomor versi. Sekarang mari kita tarik beberapa model Qwen.
Menjalankan Model Qwen 3.5
Menarik Model Pertama Anda
Ollama membuat pengunduhan model menjadi sederhana:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bSetiap pengunduhan model membutuhkan beberapa menit tergantung pada kecepatan internet Anda. Model 2B berukuran sekitar 1.5GB, sedangkan model 9B sekitar 5GB.
Memulai Sesi Obrolan
Setelah ditarik, segera mulai mengobrol:
ollama run qwen3.5:9b
Anda akan melihat prompt tempat Anda dapat mengetik langsung:
>>> Apa itu komputasi kuantum dalam istilah sederhana?
Komputasi kuantum adalah jenis komputasi di mana...
Ketik pertanyaan Anda dan tekan Enter. Tekan Ctrl+D untuk keluar.
Mencantumkan Model yang Tersedia
Lihat apa yang telah Anda instal:
ollama list
Output menunjukkan setiap model, ukurannya, dan kapan terakhir Anda menggunakannya.
Menghapus Model
Kosongkan ruang disk dengan menghapus model yang tidak Anda butuhkan:
ollama remove qwen3.5:9b
Perbandingan dan Pemilihan Model
Memilih model yang tepat tergantung pada perangkat keras dan kasus penggunaan Anda:
| Model | Parameter | Ukuran Model Kira-kira (BF16, presisi penuh) | RAM yang Dibutuhkan (BF16, panduan Unsloth) | Terbaik untuk |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 GB | ~9 GB | Perangkat ultra-ringan & seluler: pelengkapan otomatis cepat, chatbot sederhana, alat kecil, visi/OCR dasar pada perangkat sangat rendah. |
| Qwen3.5-2B | 2B | ~4 GB | ~9 GB | Asisten ringan, agen kecil, bantuan coding dasar, multimodal yang lumayan pada laptop dengan RAM sedang. |
| Qwen3.5-4B | 4B | ~8 GB | ~14 GB | Pembantu pengembang "pelengkapan otomatis cerdas", agen ringan, penalaran dan multimodal yang lebih baik dari 2B namun tetap mudah dijalankan secara lokal. |
| Qwen3.5-9B | 9B | ~18 GB | ~19 GB | Asisten umum yang kuat, multilingual + visi yang baik, dapat digunakan sebagai AI lokal utama pada mesin dengan RAM/VRAM 16–24 GB. |
Rekomendasi untuk sebagian besar pengguna: Mulailah dengan qwen2.5:2b. Ini menawarkan keseimbangan terbaik antara kemampuan dan kecepatan. Tingkatkan ke 4B atau 9B hanya jika Anda membutuhkan kekuatan penalaran yang lebih besar.
API Ollama untuk Pengembang
Ollama menjalankan server API lokal yang dapat dipanggil oleh aplikasi Anda. Ini sempurna untuk mengintegrasikan Qwen 3.5 ke dalam proyek Anda.
Memulai Server API
Ollama berjalan sebagai layanan latar belakang secara default. API tersedia di:
http://localhost:11434
Penyelesaian Obrolan Dasar
Kirim permintaan ke titik akhir obrolan:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Apa itu Python?"}
],
"stream": false
}'
Respons:

Respons Streaming
Untuk output real-time, aktifkan streaming:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Hitung sampai 5"}],
"stream": true
}'
Ini melakukan streaming token saat token dihasilkan.
Titik Akhir Generasi
Untuk prompt non-obrolan:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Tulis haiku tentang coding",
"stream": false
}'
Mengintegrasikan dengan Aplikasi Anda
Integrasi Python
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Jelaskan rekursi"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
Integrasi JavaScript/Node.js
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'Apa itu API?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Menguji Integrasi Anda dengan Apidog
Saat membangun aplikasi yang memanggil Ollama, gunakan alat pengujian API untuk memvalidasi respons. Berikut cara menguji API Ollama Anda dengan Apidog:
- Buat permintaan POST baru ke
http://localhost:11434/api/chat - Atur Content-Type ke
application/json - Tambahkan isi permintaan:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Halo"}],
"stream": false
}
Apidog memungkinkan Anda membuat kasus uji otomatis yang memvalidasi kualitas respons, menguji prompt yang berbeda, dan memantau titik akhir LLM lokal Anda. Ini memastikan integrasi Anda berfungsi dengan andal dalam produksi.
Kinerja dan Persyaratan Perangkat Keras
Akselerasi GPU
Ollama secara otomatis menggunakan GPU jika tersedia:
- Apple Silicon (M1/M2/M3): Menggunakan Metal, sangat efisien
- GPU NVIDIA: Menggunakan CUDA, kinerja luar biasa
- GPU AMD: Menggunakan ROCm di Linux
- Hanya CPU: Berfungsi tetapi lebih lambat
Kinerja yang Diharapkan
| Model | GPU | Token/detik (kira-kira) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
Inferensi hanya dengan CPU akan secara signifikan lebih lambat (5-10x).
Persyaratan Memori
RAM minimum berdasarkan model:
- 0.8B: 2GB RAM tersedia
- 2B: 4GB RAM tersedia
- 4B: 8GB RAM tersedia
- 9B: 16GB RAM tersedia
Memiliki RAM lebih dari minimum membantu dalam responsivitas.
Memecahkan Masalah Umum
"Ollama tidak ditemukan"
Pastikan Ollama ada di PATH Anda. Di Mac/Linux, restart terminal Anda setelah instalasi.
Kinerja Lambat
- Periksa apakah GPU sedang digunakan:
ollama listmenampilkan informasi model - Untuk hanya CPU: harapkan kecepatan lebih lambat
- Tutup aplikasi GPU lainnya
Pengunduhan Model Gagal
Coba lagi dengan internet yang lebih cepat. Jika menggunakan VPN, coba tanpa VPN.
Koneksi API Ditolak
Pastikan Ollama sedang berjalan: ollama serve (biasanya berjalan secara otomatis)
Memori Habis
Gunakan model yang lebih kecil. Model 9B membutuhkan RAM yang signifikan. Tutup aplikasi lain.
Kesimpulan
Ollama membuat menjalankan model Qwen 3.5 secara lokal menjadi mudah. Baik Anda seorang pengembang yang membangun aplikasi AI atau hanya ingin bereksperimen dengan LLM lokal, prosesnya hanya membutuhkan beberapa menit, bukan berjam-jam.
Kombinasi kemampuan multilingual yang kuat dari Qwen 3.5 dan antarmuka sederhana Ollama menjadikan ini salah satu cara termudah untuk memulai dengan AI lokal.
Langkah selanjutnya: Setelah Anda menyiapkan API Ollama Anda, gunakan Apidog untuk membuat kasus uji otomatis yang memvalidasi kualitas respons, menguji prompt yang berbeda, dan memantau titik akhir LLM lokal Anda. Mulai dengan Apidog secara gratis.
FAQ
Apa perbedaan antara Ollama dan metode penyebaran lainnya?
Ollama dirancang untuk kesederhanaan. Berbeda dengan Docker atau penyebaran model manual, Ollama menangani semuanya (pengunduhan model, akselerasi GPU, penyediaan API) dengan perintah sederhana.
Dapatkah saya menggunakan Ollama dengan model Qwen lainnya?
Ya, Ollama mendukung banyak model. Periksa ollama.com/library untuk daftar lengkapnya.
Bagaimana cara memperbarui model Qwen di Ollama?
Tarik versi terbaru: ollama pull qwen2.5:2b. Ini mengunduh pembaruan jika tersedia.
Dapatkah saya menjalankan beberapa model sekaligus?
Ya, tetapi setiap model menggunakan memori. Sebagian besar sistem dapat menjalankan 1-2 model secara bersamaan.
Apakah data saya aman dengan Ollama?
Ya. Semuanya berjalan secara lokal. Tidak ada data yang dikirim ke server eksternal.
Dapatkah saya melakukan fine-tune model Qwen menggunakan Ollama?
Ollama hanya untuk inferensi. Untuk fine-tuning, Anda akan membutuhkan alat lain seperti adaptor LoRA.
Bagaimana cara mengubah port yang digunakan Ollama?
Atur variabel lingkungan OLLAMA_HOST sebelum menjalankan: export OLLAMA_HOST=0.0.0.0:8080
