Apa itu vLLM? Percepat Inferensi LLM untuk API Cepat dan Skalabel

Temukan bagaimana vLLM mempercepat inferensi Model Bahasa Besar untuk pengembang API. Pelajari cara menginstal, mengonfigurasi, dan menyebarkan endpoint LLM cepat—serta tips praktis untuk penyajian batch dan real-time, backend perhatian, dan pemecahan masalah.

Mark Ponomarev

Mark Ponomarev

23 June 2026

Apa itu vLLM? Percepat Inferensi LLM untuk API Cepat dan Skalabel

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Apakah Anda sedang membangun aplikasi Large Language Model (LLM) dan menghadapi masalah kecepatan inferensi yang lambat atau keterbatasan memori? vLLM adalah solusi yang diadopsi oleh insinyur API dan backend terkemuka untuk mempercepat penyajian LLM, menangani konkurensi tinggi, dan mengurangi biaya infrastruktur. Panduan praktis ini menjelaskan apa itu vLLM, bagaimana cara kerjanya, cara menginstalnya, dan cara menggunakannya untuk inferensi API batch maupun real-time, sehingga tim Anda dapat menghadirkan fitur AI yang cepat dan andal dalam skala besar.

button

Apa itu vLLM? Mengapa Ini Penting untuk API LLM?

vLLM adalah mesin inferensi sumber terbuka (open-source) dengan throughput tinggi dan efisien memori yang dirancang untuk menyajikan model bahasa besar. Dikembangkan oleh peneliti dan insinyur terkemuka, ini mengatasi dua tantangan terbesar yang dihadapi dalam penerapan LLM:

Inovasi inti vLLM:

Anggap vLLM sebagai mesin backend turbocharger untuk API LLM, terutama bagi pengembang yang membutuhkan inferensi yang skalabel dan siap produksi.

Mengapa Pengembang API dan Insinyur Backend Memilih vLLM

vLLM dengan cepat menjadi mesin inferensi LLM pilihan bagi tim teknis karena menghadirkan:

Lihat daftar lengkap model yang didukung dalam dokumentasi vLLM.

Tips: Jika Anda sedang membangun atau menguji API berbasis LLM, pertimbangkan untuk berintegrasi dengan Apidog. Apidog memudahkan perancangan, pengujian, dan pendokumentasian titik akhir LLM Anda—baik Anda menggunakan vLLM, OpenAI, atau backend kustom—membantu tim menyederhanakan kolaborasi API dan QA.
button

LLM yang Didukung: Model Apa Saja yang Berfungsi dengan vLLM?

vLLM secara native mendukung berbagai model berbasis transformer, termasuk:

Daftarnya terus bertambah. Untuk kompatibilitas terkini, periksa Daftar Model yang Didukung vLLM resmi.

Catatan: Jika model Anda tidak terdaftar tetapi berbagi arsitektur dengan yang didukung, mungkin masih berfungsi—uji dengan hati-hati. Arsitektur kustom mungkin memerlukan kontribusi kode upstream.

Konsep Utama: PagedAttention dan Continuous Batching

Memahami kedua konsep ini akan membantu Anda mengoptimalkan penerapan LLM Anda:

PagedAttention

Continuous Batching

Optimasi inilah mengapa vLLM mengungguli banyak kerangka kerja penyajian LLM lainnya.

Prasyarat: Apa yang Anda Butuhkan Sebelum Menginstal vLLM

Sebelum Anda memulai, pastikan lingkungan Anda memenuhi persyaratan berikut:

Cara Menginstal vLLM: Langkah demi Langkah

1. Menggunakan pip (Direkomendasikan)

python -m venv vllm-env
source vllm-env/bin/activate
# Di Windows: vllm-env\\Scripts\\activate

pip install vllm

Ini menginstal vLLM dan dependensinya (termasuk PyTorch).

2. Menggunakan Conda

conda create -n vllm-env python=3.11 -y
conda activate vllm-env
pip install vllm

Tips: Untuk versi CUDA kustom, instal PyTorch dengan conda terlebih dahulu, lalu vLLM.

3. Menggunakan uv (untuk instalasi super cepat)

uv venv vllm-env --python 3.12 --seed
source vllm-env/bin/activate
uv pip install vllm

4. Verifikasi Instalasi

python -c "import vllm; print(vllm.__version__)"
vllm --help

Anda akan melihat versi yang terinstal dan bantuan baris perintah.

Inferensi Batch Offline dengan vLLM

Inferensi batch sangat ideal untuk menjalankan prediksi pada daftar prompt—bagus untuk evaluasi, pembuatan kumpulan data, atau pemrosesan massal.

Contoh: Skrip Inferensi Batch

from vllm import LLM, SamplingParams

# 1. Tentukan prompt
prompts = [
    "Ibu kota Perancis adalah",
    "Jelaskan teori relativitas secara sederhana:",
    "Tulis puisi pendek tentang hari hujan:",
    "Terjemahkan 'Hello, world!' ke Bahasa Jerman:",
]

# 2. Atur parameter sampling
sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.95,
    max_tokens=150,
    stop=["\n", " Human:", " Assistant:"]
)

# 3. Inisialisasi mesin vLLM (pilih model yang dapat ditangani GPU Anda)
llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.1")

# 4. Hasilkan output
outputs = llm.generate(prompts, sampling_params)

# 5. Tampilkan hasil
for output in outputs:
    print("-" * 20)
    print(f"Prompt: {output.prompt!r}")
    print(f"Teks yang Dihasilkan: {output.outputs[0].text!r}")
    print("-" * 20)

Tips:

Menjalankan vLLM sebagai Server API yang Kompatibel dengan OpenAI

Ingin menyajikan LLM melalui API yang mirip OpenAI? vLLM memudahkan untuk menukar titik akhir, menguji model baru, dan berintegrasi dengan alat API seperti Apidog untuk alur kerja desain, mock, dan QA yang mulus.

Mulai Server vLLM

source vllm-env/bin/activate
vllm serve mistralai/Mistral-7B-Instruct-v0.1
# Atau, untuk model lain:
# vllm serve Qwen/Qwen2-1.5B-Instruct

Opsi utama:

Server berjalan di http://localhost:8000 secara default.

Menggunakan Titik Akhir API Completions

Contoh cURL:

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "mistralai/Mistral-7B-Instruct-v0.1",
        "prompt": "San Francisco adalah kota di",
        "max_tokens": 50,
        "temperature": 0.7
    }'

Contoh Python (Klien OpenAI):

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",  # Atau kunci API Anda jika diatur
    base_url="http://localhost:8000/v1"
)

completion = client.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.1",
    prompt="Jelaskan manfaat menggunakan vLLM:",
    max_tokens=150,
    temperature=0.5
)
print(completion.choices[0].text)

Menggunakan Titik Akhir API Chat Completions

Contoh cURL:

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "mistralai/Mistral-7B-Instruct-v0.1",
        "messages": [
            {"role": "system", "content": "Anda adalah asisten yang membantu."},
            {"role": "user", "content": "Apa keuntungan utama PagedAttention di vLLM?"}
        ],
        "max_tokens": 100,
        "temperature": 0.7
    }'

Contoh Python:

chat_response = client.chat.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.1",
    messages=[
        {"role": "system", "content": "Anda adalah asisten pemrograman yang membantu."},
        {"role": "user", "content": "Tulis fungsi Python sederhana untuk menghitung faktorial."}
    ],
    max_tokens=200,
    temperature=0.5
)
print(chat_response.choices[0].message.content)

Dengan Apidog, Anda dapat dengan cepat merancang, mem-mock, dan menguji titik akhir API ini, memastikan integrasi yang mulus dan QA otomatis untuk produk bertenaga LLM Anda.

Backend Perhatian vLLM: FlashAttention, xFormers, dan FlashInfer

vLLM mendukung beberapa backend komputasi perhatian untuk kecepatan optimal dan efisiensi memori:

Pemilihan otomatis: vLLM memilih backend terbaik untuk perangkat keras dan model Anda secara default.

Penimpaan manual: Atur variabel lingkungan VLLM_ATTENTION_BACKEND ke FLASH_ATTN, XFORMERS, atau FLASHINFER sebelum menjalankan vLLM jika Anda ingin memaksakan penggunaan backend tertentu.

Penyelesaian Masalah Umum vLLM

1. Error CUDA Kehabisan Memori

2. Masalah Instalasi & Kompatibilitas

3. Kegagalan Memuat Model

4. Inferensi Lambat

5. Output Tak Terduga atau Tidak Masuk Akal

Langkah Selanjutnya: Tingkatkan Alur Kerja API LLM Anda

Dengan vLLM, Anda dapat menerapkan dan menskalakan API bertenaga LLM lebih cepat—dan dengan Apidog, Anda mendapatkan toolkit lengkap untuk desain, pengujian, dan dokumentasi API. Kombinasi ini memberdayakan tim untuk:

Jelajahi fitur-fitur canggih vLLM (kuantisasi, multi-LoRA, penyajian terdistribusi, speculative decoding) dalam dokumentasi resmi, dan tingkatkan siklus hidup pengembangan LLM Anda dengan Apidog untuk manajemen API yang mulus.

button

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.