Model Bahasa Besar (LLM) sumber terbuka yang kuat telah mengubah secara mendasar akses ke kemampuan AI terkini. Bagi para pengembang, revolusi ini semakin diperkuat oleh semakin banyaknya platform yang menawarkan tingkat akses API gratis atau kredit awal yang substansial. Sinergi ini menghilangkan hambatan biaya yang signifikan, memungkinkan insinyur untuk bereksperimen, membuat prototipe, dan menerapkan fitur-fitur canggih yang didorong oleh AI menggunakan model-model mutakhir tanpa komitmen keuangan yang langsung. Saat kita melihat ke arah 2025, memahami lanskap LLM sumber terbuka berkualitas tinggi yang dapat diakses secara gratis melalui API sangat penting untuk inovasi.
Ingin platform terintegrasi, All-in-One bagi Tim Pengembang Anda untuk bekerja bersama dengan produktivitas maksimal?
Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

Artikel ini memberikan eksplorasi teknis tentang lebih dari 30 model semacam itu, dengan fokus pada mereka yang tersedia melalui penyedia yang terdaftar dengan tingkat penggunaan gratis. Kami akan mendalami keluarga model yang menonjol, varian spesifik, karakteristik teknis mereka (di mana dapat ditentukan dari daftar), dan platform yang memfasilitasi akses gratis mereka.
(Pernyataan: "Akses gratis" merujuk pada model yang tersedia melalui platform yang menawarkan tingkat tanpa biaya atau kredit percobaan yang signifikan, berdasarkan data sumber. Ketersediaan model, versi spesifik, batasan penggunaan, dan syarat layanan dapat berubah oleh penyedia. Selalu konsultasikan dokumentasi resmi penyedia.)
Llama Meta: Dari Mana Locallama Datang

Keluarga Llama (Model Bahasa Besar Meta AI) telah menjadi kunci dalam mendorong gerakan LLM sumber terbuka. Setiap iterasi berturut-turut mewakili kemajuan signifikan dalam arsitektur, data pelatihan, dan kinerja keseluruhan, sering kali menetapkan tolok ukur untuk model-model terbuka. Banyak platform memanfaatkan berbagai versi Llama dalam tingkat gratis mereka.
Model Llama Utama yang Dapat Diakses Secara Gratis melalui API:
- Llama 2 (7B/13B Chat): Meskipun lebih tua, model Llama 2 yang mendasar, terutama versi kuantisasi (AWQ, INT8), tetap dapat diakses, terutama melalui Cloudflare Workers AI. Ini berfungsi sebagai baseline yang efisien.
- Llama 3 8B Instruct: Model kecil dari generasi Llama 3 yang sangat dihargai, dikenal karena keseimbangan kinerja dan efisiensi komputasi. Tersedia secara luas di tingkat gratis, termasuk Groq, Cloudflare (standar dan AWQ), OVH, Cerebras, dan Model GitHub.
- Llama 3 70B Instruct: Model yang lebih besar dalam rilis awal Llama 3, menawarkan kapasitas yang jauh lebih besar untuk tugas pemrosesan dan pembuatan yang kompleks. Ketersediaannya di tingkat gratis kurang umum tetapi dapat ditemukan, sering kali dengan batasan yang lebih ketat, di platform seperti Groq dan Model GitHub.
- Llama 3.1 8B Instruct: Peningkatan iteratif pada model 8B. Ketersediaannya di tingkat gratis sangat kuat, muncul di Groq, Cerebras, OVH, Cloudflare (standar, AWQ, FP8), Model GitHub, Google Cloud (prabaca), Sambanova (ujicoba), Scaleway (ujicoba), dan Hyperbolic (ujicoba). Ketersediaan FP8 di Cloudflare dan GitHub menyoroti penerapan yang dioptimalkan untuk lingkungan edge atau yang terbatas sumber daya.
- Llama 3.1 70B Instruct: Model yang lebih besar yang sesuai dalam seri 3.1. Titik akses gratis mencakup OVH, Model GitHub, Google Cloud (prabaca), Scaleway (ujicoba), Hyperbolic (ujicoba), dan Sambanova (ujicoba).
- Llama 3.1 405B (Base/Instruct): Mewakili puncak dari seri Llama 3.1 dalam hal jumlah parameter. Akses melalui ujicoba gratis dicatat di platform seperti Hyperbolic dan Sambanova Cloud. Model GitHub juga mencantumkan akses. Skala ini biasanya melibatkan sumber daya komputasi yang signifikan.
- Llama 3.2 (1B/3B Instruct): Model kecil yang lebih baru dan sangat efisien yang menargetkan skenario di mana penggunaan sumber daya sangat penting. Tersedia melalui Cloudflare dan ujicoba gratis di Hyperbolic dan Sambanova.
- Llama 3.2 (11B/90B) Vision Instruct: Varian multimodal yang mengintegrasikan kemampuan visi. Versi 11B secara mencolok tersedia di tingkat gratis khusus Together dan Cloudflare, sementara versi 90B yang jauh lebih besar terdaftar sebagai gratis selama prabaca di Google Cloud dan tersedia melalui ujicoba di Sambanova. Ini menandai ekspansi signifikan ke dalam tugas multimodal untuk keluarga Llama.
- Llama 3.3 70B Instruct: Model besar yang lebih baru yang diatur untuk instruksi. Ketersediaannya di tingkat gratis cukup baik, ditawarkan oleh Cerebras, Groq (dengan batas harian lebih rendah dibandingkan 8B), OVH, Together (tingkat gratis khusus), Google Cloud (prabaca), Model GitHub, dan ujicoba di Hyperbolic dan Sambanova.
- Llama 4 Scout / Maverick Instruct: Model prabaca generasi berikutnya dari Meta. Scout tampaknya fokus pada efisiensi (16E kemungkinan merujuk pada parameter Mixture-of-Experts), sementara Maverick (128E) menargetkan kinerja yang lebih tinggi. Keduanya tersedia melalui Groq (dengan batas harian lebih rendah), Cerebras (batas konteks 8K), Google Cloud (prabaca), Model GitHub (varian FP8 untuk Maverick), dan ujicoba di Sambanova dan Chutes.
- Llama Guard (7B / 3 8B): Model yang dirancang khusus untuk tugas keamanan AI seperti penyaringan input/output dan moderasi konten. Tersedia melalui Cloudflare (AWQ 7B) dan Groq / Sambanova (ujicoba) / Model GitHub (3 8B).
Sorotan Keluarga Llama (Akses Tingkat Gratis): Llama 3.3 70B Instruct menonjol karena kombinasi menjadi model besar berkinerja tinggi yang relatif tersedia di berbagai tingkat gratis (Cerebras, Groq, OVH, Together) dan prabaca/ujicoba (Google Cloud, GitHub, Hyperbolic, Sambanova). Untuk tugas multimodal, Llama 3.2 11B Vision Instruct di tingkat gratis Together dan Cloudflare adalah opsi yang dapat diakses kunci. Untuk efisiensi maksimal, varian Llama 3.1 8B Instruct (termasuk kuantisasi AWQ/FP8) menawarkan ketersediaan yang luas.
Mistral AI: Dari Prancis dengan Cinta

Mistral AI dengan cepat mendapatkan perhatian dengan merilis model berbobot terbuka yang menunjukkan kinerja luar biasa relatif terhadap jumlah parameter mereka, sering kali menggunakan inovasi arsitektural seperti Grouped-Query Attention (GQA) dan Sliding Window Attention (SWA).
Model Mistral Utama yang Dapat Diakses Secara Gratis melalui API:
- Mistral 7B Instruct (v0.1, v0.2, v0.3): Model dasar yang menetapkan tolok ukur tinggi untuk kelas parameter 7B. Berbagai versinya tersedia secara luas di tingkat gratis, termasuk OpenRouter, Cloudflare (v0.1, v0.2 standar/AWQ/LoRA), OVH (v0.3), dan ujicoba di Sambanova (E5-Mistral fine-tune). Ketersediaannya yang luas membuatnya menjadi titik awal yang sangat baik.
- Mixtral 8x7B Instruct v0.1: Model Sparse Mixture-of-Experts (SMoE) berkinerja tinggi. Setiap token hanya memproses sebagian kecil (biasanya dua 'ahli' masing-masing 7B parameter) dari total parameter, memberikan efisiensi komputasi yang mendekati model padat ~14B tetapi kinerja sering kali bersaing dengan model yang jauh lebih besar. Dapat diakses melalui tingkat beta gratis OVH.
- Mistral Nemo: Arsitektur baru dari Mistral. Tersedia melalui OpenRouter, OVH, Model GitHub, dan ujicoba Scaleway.
- Mistral Small 3.1 24B Instruct: Model proprietary dari Mistral, tetapi akses diberikan melalui tingkat gratis di OpenRouter dan Cloudflare, serta melalui ujicoba di Scaleway dan Model GitHub. Catatan: Meskipun kuat, ini bukan model sumber terbuka secara ketat, tetapi disertakan karena ketersediaan API gratis yang terdaftar.
- Zephyr 7B Beta: Fine-tune populer dari Mistral 7B oleh HuggingFace H4, dikenal karena kemampuan mengikuti instruksi dan percakapan yang ditingkatkan. Tersedia melalui OpenRouter dan Cloudflare (AWQ).
- Hermes 2 Pro Mistral 7B: Fine-tune lain yang sangat dihargai berdasarkan Mistral 7B. Dapat diakses melalui tingkat gratis Cloudflare.
- OpenHermes 2.5 Mistral 7B: Fine-tune Mistral 7B lainnya, tersedia melalui Cloudflare (AWQ).
Sorotan Keluarga Mistral (Akses Tingkat Gratis): Mistral 7B Instruct (versi apa pun) tetap menonjol karena rekam jejaknya yang terbukti, kinerja tinggi per parameter, dan ketersediaan yang sangat luas di berbagai penyedia API gratis (OpenRouter, Cloudflare, OVH). Bagi pengembang yang mencari eksplorasi arsitektur SMoE, Mixtral 8x7B Instruct di tingkat gratis OVH adalah penawaran kunci.
Google Gemma: Kecil tapi Kuat

Gemma mewakili keluarga model terbuka Google, yang dikembangkan menggunakan penelitian dan teknologi yang dibagikan dengan model Gemini unggulan mereka. Mereka menawarkan berbagai ukuran dan dirancang untuk pengembangan AI yang bertanggung jawab.
Model Gemma Utama yang Dapat Diakses Secara Gratis melalui API:
- Gemma 2B Instruct: Model kecil yang cocok untuk tugas yang kurang menuntut atau lingkungan yang terbatas sumber daya. Tersedia melalui Cloudflare (varian LoRA).
- Gemma 7B Instruct: Model berkinerja menengah yang mampu. Tersedia melalui Cloudflare (varian standar dan LoRA).
- Gemma 2 9B Instruct: Penerus model 7B asli, menawarkan kemampuan yang ditingkatkan. Dapat diakses melalui tingkat gratis OpenRouter dan Groq.
- Gemma 3 (1B, 4B, 12B, 27B) Instruct: Generasi terbaru, mencakup berbagai ukuran. Model 1B dan 4B yang lebih kecil tersedia di OpenRouter dan Google AI Studio. Model 12B tersedia di OpenRouter, Google AI Studio, dan Cloudflare. Model 27B yang lebih besar tersedia melalui OpenRouter, Google AI Studio, dan ujicoba Scaleway. Google AI Studio menyediakan kuota gratis yang besar untuk ini.
Sorotan Keluarga Gemma (Akses Tingkat Gratis): Seri Gemma 3, terutama 12B Instruct dan 27B Instruct, mewakili kemajuan terbaru yang tersedia secara gratis melalui OpenRouter dan Google AI Studio (dengan batas tinggi). Ketersediaan yang luas di berbagai ukuran (1B hingga 27B) dalam seri Gemma 3 di tingkat gratis (OpenRouter/Google AI Studio/Cloudflare/Scaleway) menjadikannya keluarga yang serbaguna untuk eksperimen. Gemma 2 9B Instruct di Groq juga menawarkan akses inferensi cepat.
Qwen Alibaba: LLM Multimodel & Multilingual Sumber Terbuka Terbaik?

Model Qwen (Tongyi Qianwen) dari Alibaba telah menunjukkan kemampuan yang kuat, terutama dalam konteks multibahasa dan, baru-baru ini, tugas bahasa-visual.
Model Qwen Utama yang Dapat Diakses Secara Gratis melalui API:
- Qwen 1.5 Chat (0.5B, 1.8B, 7B, 14B): Berbagai model yang disesuaikan untuk percakapan tersedia di tingkat gratis Cloudflare, sering dalam format AWQ (Kuantisasi Berat yang Sadar Aktivasi) yang efisien, cocok untuk penerapan yang dapat diskalakan.
- Qwen 2.5 7B Instruct: Model terbaru generasi 7B yang mengikuti instruksi. Tersedia melalui OpenRouter.
- Qwen 2.5 72B Instruct: Model besar dan kuat yang disesuaikan untuk instruksi dari seri terbaru. Tersedia melalui OpenRouter dan ujicoba di Hyperbolic.
- Qwen 2.5 VL (Vision Language) Instruct (3B, 7B, 32B, 72B): Varian multimodal yang mampu menginterpretasikan baik teks maupun gambar. Tersedia dalam berbagai ukuran di OpenRouter, dengan 72B juga di OVH dan ujicoba di Hyperbolic. Penawaran multimodal yang kuat di berbagai ukuran ini adalah fitur kunci.
- Qwen QwQ 32B: Varian spesifik yang tersedia melalui OpenRouter (termasuk Prabaca), Groq, Cloudflare, dan ujicoba di Sambanova dan Hyperbolic.
- Qwen2.5 Coder 32B Instruct: Model besar yang khusus untuk tugas pengkodean. Tersedia melalui OpenRouter, OVH, Cloudflare, dan ujicoba di Hyperbolic dan Scaleway.
Sorotan Keluarga Qwen (Akses Tingkat Gratis): Seri Qwen 2.5 VL Instruct adalah sorotan utama karena ketersediaannya yang luas (OpenRouter, OVH, ujicoba Hyperbolic) di berbagai ukuran (3B hingga 72B) untuk tugas bahasa-visual dalam konteks akses gratis. Untuk pengkodean, Qwen2.5 Coder 32B Instruct adalah opsi kuat yang dapat diakses secara gratis (OpenRouter, OVH, Cloudflare).
Phi Microsoft: Jalan Lain

Model Phi dari Microsoft menantang anggapan bahwa jumlah parameter yang lebih besar selalu diperlukan untuk kinerja tinggi. Mereka dilatih pada data "kualitas buku teks" yang dipilih dengan cermat, memungkinkan kemampuan penalaran dan pemahaman bahasa yang mengesankan dalam model yang relatif kecil.
Model Phi Utama yang Dapat Diakses Secara Gratis melalui API:
- Phi-2: Demonstrasi awal dari filosofi "model kecil", dikenal karena penalaran yang kuat secara mengejutkan. Tersedia melalui Cloudflare.
- Phi-3 Mini / Small / Medium Instruct: Tersedia dalam berbagai ukuran (Mini ~3.8B, Small ~7B, Medium ~14B parameter) dan panjang konteks (4k/8k standar, 128k diperpanjang). Akses ke ini terutama terdaftar melalui tingkat gratis Model GitHub. Varian konteks 128k sangat layak untuk memproses dokumen panjang.
- (Eksperimental/Prabaca) Phi-3.5/Phi-4: Iterasi yang lebih baru terdaftar di Model GitHub, termasuk MoE, visi, dan potensi model dasar yang lebih besar, menunjukkan arah masa depan.
Sorotan Keluarga Phi (Akses Tingkat Gratis): Seri Phi-3 (Mini, Small, Medium) dengan panjang konteks 128k yang dapat diakses melalui Model GitHub menonjol. Kombinasi ukuran model yang kompak, kinerja yang kuat (relatif terhadap ukuran), dan jendela konteks yang sangat panjang menjadikannya tawaran unik di lanskap tingkat gratis, ideal untuk tugas yang memerlukan analisis teks yang luas.
DeepSeek: Paus Berpikir

DeepSeek AI telah menemukan ceruk dengan merilis model sumber terbuka yang menunjukkan kecakapan luar biasa di domain khusus seperti pemrograman dan matematika.
Model DeepSeek Utama yang Dapat Diakses Secara Gratis melalui API:
- DeepSeek Coder (6.7B Base/Instruct): Model yang berfokus pada generasi kode. Versi instruksi tersedia melalui Cloudflare (AWQ).
- DeepSeek Math 7B Instruct: Model yang disesuaikan khusus untuk pemecahan masalah matematika. Dapat diakses melalui Cloudflare.
- DeepSeek V3 / V3 0324: Model percakapan umum yang tersedia melalui OpenRouter dan ujicoba di Hyperbolic dan Sambanova.
- DeepSeek R1: Model dasar yang tersedia melalui OpenRouter dan ujicoba di Sambanova dan Chutes.
- DeepSeek R1 Distill (Llama 70B / Qwen 14B / Qwen 32B): Model distilasi pengetahuan yang bertujuan untuk menangkap esensi dari model yang lebih besar dalam bentuk yang lebih ringkas. Tersedia secara luas melalui OpenRouter, Groq (Llama 70B), OVH (Llama 70B), Cloudflare (Qwen 32B), Together (Llama 70B tingkat gratis), Scaleway (Llama 70B/8B ujicoba), dan ujicoba di Sambanova.
Sorotan Keluarga DeepSeek (Akses Tingkat Gratis): Model DeepSeek Coder dan DeepSeek Math di Cloudflare adalah alat khusus yang berharga yang tersedia secara gratis. Selain itu, DeepSeek R1 Distill Llama 70B menonjol karena ketersediaannya yang luas di berbagai tingkat gratis (OpenRouter, Groq, OVH, Together), menawarkan versi distilasi dari model besar.
Model Terbuka Lain yang Menonjol melalui API Gratis
Di luar keluarga besar, beberapa model terbuka yang telah disesuaikan atau khusus muncul di tingkat gratis:
- OpenChat 3.5 0106: Tersedia melalui Cloudflare.
- Starling LM 7B Beta: Tersedia melalui Cloudflare.
- SQLCoder 7B 2: Dikhususkan untuk generasi SQL, tersedia melalui Cloudflare.
- Dolphin / DeepHermes / Featherless / Rogue Rose / OlympicCoder / QwQ ArliAI: Berbagai fine-tune dan model eksperimental yang dapat diakses terutama melalui tingkat gratis OpenRouter dan/atau Chutes.
Cara Mengakses dan Menggunakan API Gratis Ini
Mendapatkan akses biasanya melibatkan pendaftaran dengan satu atau lebih platform penyedia. Platform ini berkisar dari:
- Agregator: Seperti OpenRouter, menyediakan antarmuka terpadu untuk model dari berbagai sumber, sering kali termasuk banyak opsi gratis. Unify bertindak sebagai router dengan kredit ujicoba.
- Penyedia Cloud: Google Cloud (Vertex AI), Cloudflare (Workers AI), OVH Cloud (AI Endpoints), Scaleway menawarkan tingkat gratis atau prabaca yang terintegrasi ke dalam ekosistem cloud yang lebih luas. Sering kali memerlukan pengaturan akun, terkadang dengan verifikasi pembayaran (bahkan untuk tingkat gratis).
- Penyedia LLM Khusus: Groq (fokus pada inferensi latensi rendah), Mistral, Cerebras, Together menawarkan tingkat gratis atau model gratis khusus di samping opsi berbayar. Sering kali memerlukan pendaftaran, mungkin verifikasi telepon.
- Integrasi Platform: Model GitHub mengintegrasikan akses LLM ke dalam alur kerja pengembang, dengan batas yang terkait dengan langganan Copilot.
- Platform Komputasi: Modal, Baseten menawarkan platform komputasi umum di mana Anda membayar berdasarkan penggunaan, tetapi memberikan kredit gratis bulanan yang signifikan ($30) yang cukup untuk eksperimen LLM yang substansial.
- Penyedia Kredit Ujicoba: Fireworks, Nebius, Novita, AI21, Upstage, NLP Cloud, Hyperbolic, Sambanova memberikan kredit dolar atau token awal untuk menjelajahi penawaran model mereka.
Pertimbangan Teknis:
- Kunci API: Penting untuk otentikasi; jaga keamanan mereka.
- Batasan Penggunaan: Tingkat gratis pasti memiliki batasan (Permintaan per Menit/Hari, Token per Menit/Bulan, permintaan bersamaan). Ini adalah faktor penting untuk kelayakan aplikasi.
README.md
merinci ini secara ekstensif untuk banyak penyedia (misalnya, batas harian bervariasi Groq, batas token/permintaan yang terperinci di Google AI Studio, batas RPM sederhana OVH). - Kuota: Mirip dengan batasan penggunaan tetapi sering kali mendefinisikan total penggunaan selama periode tertentu (misalnya, batas permintaan bulanan Cohere, alokasi neuron harian Cloudflare, total token gratis Scaleway).
- Kuantisasi: Teknik seperti AWQ (Kuantisasi Berat yang Sadar Aktivasi) atau FP8 (Floating Point 8-bit) sering digunakan, terutama di Cloudflare dan Model GitHub, untuk mengurangi ukuran model dan persyaratan komputasi, memungkinkan penerapan pada infrastruktur gratis atau biaya efektif. Ini mengorbankan beberapa presisi demi efisiensi.
- Jendela Konteks: Berbeda secara signifikan (misalnya, tingkat gratis Cerebras terbatas hingga 8K, Phi-3 menawarkan 128K). Pilih berdasarkan kebutuhan tugas.
- Privasi/ Penggunaan Data: Waspadai kebijakan penyedia, terutama mengenai penggunaan data untuk pelatihan model (misalnya, catatan Google AI Studio, rencana Eksperimen Mistral).
Baiklah, Jadi Apa LLM Sumber Terbuka Terbaik untuk Setiap Kasus Penggunaan?
Memilih API LLM sumber terbuka gratis "terbaik" sangat tergantung pada tugas pengembangan spesifik:
- Percakapan Umum/Mengikuti Instruksi: Llama 3.x Instruct, Mistral 7B Instruct, Mixtral 8x7B, Gemma 2/3 Instruct, Qwen 2.5 Instruct adalah pesaing kuat. Mulailah dengan opsi yang tersedia luas seperti Mistral 7B atau Llama 3.1 8B.
- Pemrograman: DeepSeek Coder, Qwen2.5 Coder, Llama 4 Scout/Maverick (sering menunjukkan tolok ukur pengkodean), Codestral (Mistral, tingkat gratis).
- Multimodal (Teks + Gambar): Llama 3.2 Vision Instruct, seri Qwen 2.5 VL Instruct, Phi-3.5 Vision, Aya Vision. Periksa ketersediaan di OpenRouter, Cloudflare, Together, Google Cloud.
- Proses Konteks Panjang: Varian Phi-3 128k melalui Model GitHub.
- Kecepatan Inferensi Tinggi: Groq sering memimpin, menawarkan varian Llama 3, Gemma 2, Mixtral (via Mistral Saba), dll.
- Daya Maksimal (melalui Tingkat Gratis/Prabaca): Lihat model terbesar yang tersedia seperti Llama 3.3 70B (beberapa penyedia), Llama 3.1 405B (ujicoba), Qwen 2.5 72B, kemungkinan prabaca eksperimental di Google Cloud atau GitHub.
- Efisiensi/Batasan Sumber Daya: Model kecil seperti Llama 3.2 (1B/3B), Phi-3 Mini, Gemma 3 (1B/4B), atau model kuantisasi (AWQ/FP8) di Cloudflare/GitHub adalah yang ideal.
Kesimpulan
Ekosistem kaya LLM sumber terbuka yang dikombinasikan dengan tingkat API gratis yang dapat diakses menghadirkan peluang tanpa preseden bagi pengembang di tahun 2025. Dari model percakapan serbaguna seperti Llama 3 dan Mistral 7B hingga mesin pengkodean khusus seperti DeepSeek Coder dan kekuatan multimodal seperti Qwen VL, berbagai kemampuan tersedia untuk eksperimen dan integrasi tanpa biaya awal. Dengan memahami model-model, platform yang menawarkan akses, dan kendala teknis terkait seperti batas penggunaan dan jendela konteks, para pengembang dapat memanfaatkan sumber daya ini secara efektif untuk membangun generasi berikutnya dari aplikasi yang didorong oleh AI. Ingatlah untuk berkonsultasi dengan dokumentasi penyedia untuk detail terbaru dan selalu gunakan sumber daya berharga ini dengan bertanggung jawab.
Ingin platform terintegrasi, All-in-One bagi Tim Pengembang Anda untuk bekerja bersama dengan produktivitas maksimal?
Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!