Cara Menggunakan Model Qwen3 Terkuantisasi Secara Lokal: Panduan Langkah demi Langkah

Ashley Innocent

Ashley Innocent

27 July 2025

Cara Menggunakan Model Qwen3 Terkuantisasi Secara Lokal: Panduan Langkah demi Langkah

Model bahasa besar (LLM) seperti Qwen3 merevolusi lanskap AI dengan kemampuan mengesankan dalam pengkodean, penalaran, dan pemahaman bahasa alami. Dikembangkan oleh tim Qwen di Alibaba, Qwen3 menawarkan model terkuantisasi yang memungkinkan penerapan lokal yang efisien, membuatnya dapat diakses oleh pengembang, peneliti, dan penggemar untuk menjalankan model canggih ini di perangkat keras mereka sendiri. Baik Anda menggunakan Ollama, LM Studio, atau vLLM, panduan ini akan memandu Anda melalui proses pengaturan dan menjalankan model terkuantisasi Qwen3 secara lokal.

💡
Sebelum memulai, pastikan Anda memiliki alat yang tepat untuk menguji dan berinteraksi dengan pengaturan Qwen3 lokal Anda. Apidog adalah alat pengujian API yang sangat baik yang dapat membantu Anda memvalidasi titik akhir API model lokal Anda dengan mudah. Unduh Apidog secara gratis untuk merampingkan alur kerja pengujian API Anda saat bekerja dengan Qwen3!
button

Dalam panduan teknis ini, kita akan menjelajahi proses pengaturan, pemilihan model, metode penerapan, dan integrasi API. Mari kita mulai.

Apa Itu Model Terkuantisasi Qwen3?

Qwen3 adalah generasi terbaru LLM dari Alibaba, dirancang untuk kinerja tinggi di berbagai tugas seperti pengkodean, matematika, dan penalaran umum. Model terkuantisasi, seperti yang dalam format BF16, FP8, GGUF, AWQ, dan GPTQ, mengurangi kebutuhan komputasi dan memori, menjadikannya ideal untuk penerapan lokal pada perangkat keras kelas konsumen.

Keluarga Qwen3 mencakup berbagai model:

Model Qwen3

Model-model ini mendukung penerapan fleksibel melalui platform seperti Ollama, LM Studio, dan vLLM, yang akan kita bahas secara rinci. Selain itu, Qwen3 menawarkan fitur seperti "thinking mode," yang dapat diaktifkan untuk penalaran yang lebih baik, dan parameter generasi untuk menyempurnakan kualitas output.

Sekarang kita memahami dasar-dasarnya, mari kita lanjutkan ke prasyarat untuk menjalankan Qwen3 secara lokal.

Prasyarat untuk Menjalankan Qwen3 Secara Lokal

Sebelum menerapkan model terkuantisasi Qwen3, pastikan sistem Anda memenuhi persyaratan berikut:

Perangkat Keras:

Perangkat Lunak:

Dependensi:

Dengan prasyarat ini, mari kita lanjutkan untuk mengunduh model terkuantisasi Qwen3.

Langkah 1: Unduh Model Terkuantisasi Qwen3

Pertama, Anda perlu mengunduh model terkuantisasi dari sumber terpercaya. Tim Qwen menyediakan model Qwen3 di Hugging Face dan ModelScope

Cara Mengunduh dari Hugging Face

  1. Kunjungi koleksi Hugging Face Qwen3.
  2. Pilih model, seperti Qwen3-4B dalam format GGUF untuk penerapan ringan.
  3. Klik tombol "Download" atau gunakan perintah git clone untuk mengambil file model:
git clone https://huggingface.co/Qwen/Qwen3-4B-GGUF
  1. Simpan file model dalam direktori, seperti /models/qwen3-4b-gguf.

Cara Mengunduh dari ModelScope

  1. Navigasi ke koleksi ModelScope Qwen3.
  2. Pilih model dan format kuantisasi yang Anda inginkan (misalnya, AWQ atau GPTQ).
  3. Unduh file secara manual atau gunakan API mereka untuk akses terprogram.

Setelah model diunduh, mari kita jelajahi cara menerapkannya menggunakan Ollama.

Langkah 2: Terapkan Qwen3 Menggunakan Ollama

Ollama menyediakan cara yang ramah pengguna untuk menjalankan LLM secara lokal dengan pengaturan minimal. Ini mendukung format GGUF Qwen3, menjadikannya ideal untuk pemula.

Ollama UI

Instal Ollama

  1. Kunjungi situs web resmi Ollama dan unduh biner untuk sistem operasi Anda.
  2. Instal Ollama dengan menjalankan penginstal atau mengikuti instruksi baris perintah:
curl -fsSL https://ollama.com/install.sh | sh
  1. Verifikasi instalasi:
ollama --version
Ollama version check

Jalankan Qwen3 dengan Ollama

  1. Mulai model:
ollama run qwen3:235b-a22b-q8_0
  1. Setelah model berjalan, Anda dapat berinteraksi dengannya melalui baris perintah:
>>> Halo, bagaimana saya bisa membantu Anda hari ini?

Ollama juga menyediakan titik akhir API lokal (biasanya http://localhost:11434) untuk akses terprogram, yang akan kita uji nanti menggunakan Apidog.

Selanjutnya, mari kita jelajahi cara menggunakan LM Studio untuk menjalankan Qwen3.

Langkah 3: Terapkan Qwen3 Menggunakan LM Studio

LM Studio adalah alat populer lainnya untuk menjalankan LLM secara lokal, menawarkan antarmuka grafis untuk manajemen model.

LM Studio UI

Instal LM Studio

  1. Unduh LM Studio dari situs web resminya.
  2. Instal aplikasi dengan mengikuti instruksi di layar.
  3. Luncurkan LM Studio dan pastikan aplikasi berjalan.

Muat Qwen3 di LM Studio

Di LM Studio, buka bagian "Local Models".

Klik "Add Model" dan cari model untuk mengunduhnya:

LM Studio search

Konfigurasi pengaturan model, seperti:

Mulai server model dengan mengklik "Start Server." LM Studio akan menyediakan titik akhir API lokal (misalnya, http://localhost:1234).

Berinteraksi dengan Qwen3 di LM Studio

  1. Gunakan antarmuka obrolan bawaan LM Studio untuk menguji model.
  2. Atau, akses model melalui titik akhir API-nya, yang akan kita jelajahi di bagian pengujian API.

Dengan LM Studio yang sudah diatur, mari kita lanjutkan ke metode penerapan yang lebih canggih menggunakan vLLM.

Langkah 4: Terapkan Qwen3 Menggunakan vLLM

vLLM adalah solusi penyajian berkinerja tinggi yang dioptimalkan untuk LLM, mendukung model terkuantisasi FP8 dan AWQ Qwen3. Ini ideal untuk pengembang yang membangun aplikasi yang kuat.

vLLM diagram

Instal vLLM

  1. Pastikan Python 3.8+ terinstal di sistem Anda.
  2. Instal vLLM menggunakan pip:
pip install vllm
  1. Verifikasi instalasi:
python -c "import vllm; print(vllm.__version__)"

Jalankan Qwen3 dengan vLLM

Mulai server vLLM dengan model Qwen3 Anda

# Muat dan jalankan model:
vllm serve "Qwen/Qwen3-235B-A22B"

Flag --enable-thinking=False menonaktifkan thinking mode Qwen3.

Setelah server dimulai, server akan menyediakan titik akhir API di http://localhost:8000.

Konfigurasi vLLM untuk Kinerja Optimal

vLLM mendukung konfigurasi lanjutan, seperti:

Dengan vLLM berjalan, mari kita uji titik akhir API menggunakan Apidog.

Langkah 5: Uji API Qwen3 dengan Apidog

Apidog adalah alat canggih untuk menguji titik akhir API, menjadikannya sempurna untuk berinteraksi dengan model Qwen3 yang Anda terapkan secara lokal.

Siapkan Apidog

  1. Unduh dan instal Apidog dari situs web resmi.
  2. Luncurkan Apidog dan buat proyek baru.
Apidog main interface

Uji API Ollama

  1. Buat permintaan API baru di Apidog.
  2. Atur titik akhir ke http://localhost:11434/api/generate.
  3. Konfigurasi permintaan:
{
  "model": "qwen3-4b",
  "prompt": "Halo, bagaimana saya bisa membantu Anda hari ini?",
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20
}
  1. Kirim permintaan dan verifikasi respons.

Uji API vLLM

  1. Buat permintaan API lain di Apidog.
  2. Atur titik akhir ke http://localhost:8000/v1/completions.
  3. Konfigurasi permintaan:
{
  "model": "qwen3-4b-awq",
  "prompt": "Tulis skrip Python untuk menghitung faktorial.",
  "max_tokens": 512,
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20
}
  1. Kirim permintaan dan periksa output.

Apidog memudahkan validasi penerapan Qwen3 Anda dan memastikan API berfungsi dengan benar. Sekarang, mari kita menyempurnakan kinerja model.

Langkah 6: Menyempurnakan Kinerja Qwen3

Untuk mengoptimalkan kinerja Qwen3, sesuaikan pengaturan berikut berdasarkan kasus penggunaan Anda:

Thinking Mode

Qwen3 mendukung "thinking mode" untuk penalaran yang ditingkatkan, seperti yang disorot dalam gambar posting X. Anda dapat mengontrolnya dengan dua cara:

  1. Soft Switch: Tambahkan /think atau /no_think ke prompt Anda.
  1. Hard Switch: Nonaktifkan thinking mode sepenuhnya di vLLM dengan --enable-thinking=False.

Parameter Generasi

Sempurnakan parameter generasi untuk kualitas output yang lebih baik:

Bereksperimenlah dengan pengaturan ini untuk mencapai keseimbangan yang diinginkan antara kreativitas dan akurasi.

Pemecahan Masalah Umum

Saat menerapkan Qwen3, Anda mungkin mengalami beberapa masalah. Berikut adalah solusi untuk masalah umum:

Model Gagal Dimuat di Ollama:

Kesalahan Tensor Parallelism vLLM:

Permintaan API Gagal di Apidog:

Dengan mengatasi masalah ini, Anda dapat memastikan pengalaman penerapan yang lancar.

Kesimpulan

Menjalankan model terkuantisasi Qwen3 secara lokal adalah proses yang mudah dengan alat seperti Ollama, LM Studio, dan vLLM. Baik Anda seorang pengembang yang membangun aplikasi atau peneliti yang bereksperimen dengan LLM, Qwen3 menawarkan fleksibilitas dan kinerja yang Anda butuhkan. Dengan mengikuti panduan ini, Anda telah mempelajari cara mengunduh model dari Hugging Face dan ModelScope, menerapkannya menggunakan berbagai kerangka kerja, dan menguji titik akhir API-nya dengan Apidog.

Mulai jelajahi Qwen3 hari ini dan buka kekuatan LLM lokal untuk proyek Anda!

button

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.