Apa itu Ollama? Cara Menginstal Ollama?

Steven Ang Cheong Seng

Steven Ang Cheong Seng

28 April 2025

Apa itu Ollama? Cara Menginstal Ollama?
💡
Ingin alat Pengujian API yang hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button

Lanskap kecerdasan buatan (AI) terus berkembang dengan kecepatan tinggi, dan Model Bahasa Besar (LLM) menjadi semakin kuat dan mudah diakses. Meskipun banyak orang berinteraksi dengan model ini melalui layanan berbasis cloud, ada gerakan yang berkembang yang berfokus pada menjalankannya secara langsung di komputer pribadi. Di sinilah Ollama berperan. Ollama adalah alat yang kuat namun ramah pengguna, dirancang untuk menyederhanakan secara drastis proses kompleks mengunduh, mengonfigurasi, dan menjalankan LLM canggih seperti Llama 3, Mistral, Gemma, Phi, dan banyak lainnya, secara lokal.

Panduan komprehensif ini berfungsi sebagai titik awal Anda untuk menguasai Ollama. Kita akan membahas mulai dari langkah-langkah instalasi awal dan interaksi dasar dengan model hingga teknik penyesuaian yang lebih canggih, penggunaan API, dan pemecahan masalah penting. Apakah Anda seorang pengembang yang ingin mengintegrasikan AI lokal ke dalam aplikasi Anda, seorang peneliti yang tertarik bereksperimen dengan berbagai arsitektur model, atau sekadar penggemar AI yang ingin menjelajahi potensi menjalankan model yang kuat secara offline, Ollama menyediakan portal yang sangat dioptimalkan dan efisien.

Mengapa memilih Ollama untuk Menjalankan LLM Lokal?

Sebelum mendalami detail teknis, penting untuk memahami keuntungan menarik menggunakan Ollama untuk operasi LLM lokal. Mengapa memilih pendekatan ini daripada hanya mengandalkan API cloud yang sudah tersedia?

  1. Privasi dan Keamanan Tak Tertandingi dengan Ollama: Saat Anda menjalankan LLM menggunakan Ollama di mesin Anda, setiap bagian data – prompt Anda, dokumen yang Anda berikan, dan teks yang dihasilkan oleh model – sepenuhnya berada di sistem lokal Anda. Itu tidak pernah meninggalkan perangkat keras Anda. Ini memastikan tingkat privasi dan kontrol data tertinggi, faktor penting saat berhadapan dengan informasi pribadi yang sensitif, data bisnis rahasia, atau penelitian hak milik.
  2. Penghematan Biaya yang Signifikan melalui Ollama: API LLM berbasis cloud sering kali beroperasi dengan model bayar sesuai penggunaan atau memerlukan biaya berlangganan berkelanjutan. Biaya ini dapat menumpuk dengan cepat, terutama dengan penggunaan berat. Ollama menghilangkan biaya berulang ini. Selain investasi awal pada perangkat keras yang sesuai (yang mungkin sudah Anda miliki), menjalankan model secara lokal pada dasarnya gratis, memungkinkan eksperimen dan pembuatan tanpa batas tanpa kekhawatiran tagihan API yang membayangi.
  3. Kemampuan Offline Sejati dengan Ollama: Setelah model Ollama diunduh ke penyimpanan lokal Anda, model itu milik Anda untuk digunakan kapan saja, di mana saja, sepenuhnya independen dari koneksi internet. Akses offline ini sangat berharga bagi pengembang yang bekerja di lingkungan dengan konektivitas terbatas, peneliti di lapangan, atau siapa saja yang membutuhkan akses AI yang andal saat bepergian.
  4. Kustomisasi Mendalam dan Eksperimen melalui Modelfiles Ollama: Ollama membedakan dirinya dengan sistem Modelfile yang kuat. Ini memungkinkan pengguna untuk dengan mudah memodifikasi perilaku model dengan menyesuaikan parameter (seperti tingkat kreativitas atau panjang output), mendefinisikan prompt sistem kustom untuk membentuk persona AI, atau bahkan mengintegrasikan adaptor khusus yang disetel (LoRA). Anda juga dapat mengimpor bobot model secara langsung dari format standar như GGUF atau Safetensors. Tingkat kontrol dan fleksibilitas granular ini jarang ditawarkan oleh penyedia API cloud sumber tertutup.
  5. Potensi Keunggulan Kinerja dengan Ollama: Tergantung pada konfigurasi perangkat keras lokal Anda, terutama keberadaan Unit Pemrosesan Grafis (GPU) yang mumpuni, Ollama dapat memberikan waktu respons (kecepatan inferensi) yang jauh lebih cepat dibandingkan dengan layanan cloud, yang mungkin tunduk pada latensi jaringan, pembatasan kecepatan, atau beban variabel pada sumber daya bersama. Memanfaatkan perangkat keras khusus Anda dapat menghasilkan pengalaman yang jauh lebih lancar dan interaktif.
  6. Keterlibatan dengan Ekosistem Sumber Terbuka Ollama yang Semarak: Ollama sendiri adalah proyek sumber terbuka, mendorong transparansi dan kontribusi komunitas. Selain itu, ini terutama berfungsi sebagai pintu gerbang ke perpustakaan LLM yang dapat diakses secara terbuka yang luas dan berkembang pesat. Dengan menggunakan Ollama, Anda menjadi bagian dari ekosistem dinamis ini, mendapat manfaat dari pengetahuan bersama, dukungan komunitas, dan inovasi berkelanjutan yang didorong oleh kolaborasi terbuka.

Pencapaian utama Ollama adalah menyembunyikan kompleksitas inheren yang terlibat dalam menyiapkan lingkungan perangkat lunak yang diperlukan, mengelola dependensi, dan mengonfigurasi pengaturan rumit yang diperlukan untuk menjalankan model AI canggih ini. Ini dengan cerdik memanfaatkan mesin inferensi backend yang sangat dioptimalkan, terutama pustaka llama.cpp yang terkenal, untuk memastikan eksekusi yang efisien pada perangkat keras konsumen standar, mendukung akselerasi CPU dan GPU.

Memahami Ollama vs. Llama.cpp

Penting untuk mengklarifikasi hubungan antara Ollama dan llama.cpp, karena keduanya terkait erat namun melayani tujuan yang berbeda.

Intinya, meskipun secara teknis Anda dapat menggunakan llama.cpp secara langsung dengan mengompilasinya dan menjalankan alat baris perintahnya, ini membutuhkan upaya teknis yang jauh lebih signifikan terkait penyiapan, konversi model, dan manajemen parameter. Ollama mengemas kekuatan ini ke dalam aplikasi yang mudah diakses dan digunakan, menjadikan LLM lokal praktis untuk audiens yang jauh lebih luas, terutama bagi pemula. Pikirkan llama.cpp sebagai komponen mesin berkinerja tinggi, dan Ollama sebagai kendaraan yang dirakit lengkap dan ramah pengguna, siap dikendarai.

Menginstal Ollama di Sistem Anda

Ollama dirancang untuk aksesibilitas, menawarkan prosedur instalasi yang mudah untuk macOS, Windows, Linux, dan lingkungan Docker.

Persyaratan Sistem Umum untuk Ollama:

Menginstal Ollama di macOS

  1. Unduh: Dapatkan file DMG aplikasi Ollama macOS langsung dari situs web resmi Ollama.
  2. Pasang (Mount): Klik dua kali file .dmg yang diunduh untuk membukanya.
  3. Instal: Seret ikon Ollama.app ke folder Aplikasi Anda.
  4. Jalankan: Buka aplikasi Ollama dari folder Aplikasi Anda. Anda mungkin perlu memberikan izin untuk menjalankannya saat pertama kali.
  5. Layanan Latar Belakang: Ollama akan mulai berjalan sebagai layanan latar belakang, ditandai dengan ikon di bilah menu Anda. Mengklik ikon ini akan memberikan opsi untuk keluar dari aplikasi atau melihat log.

Meluncurkan aplikasi secara otomatis memulai proses server Ollama dan menambahkan alat baris perintah ollama ke PATH sistem Anda, membuatnya segera tersedia di aplikasi Terminal (Terminal.app, iTerm2, dll.). Di Mac yang dilengkapi dengan Apple Silicon (chip M1, M2, M3, M4), Ollama secara mulus memanfaatkan GPU bawaan untuk akselerasi melalui API grafis Metal Apple tanpa memerlukan konfigurasi manual apa pun.

Menginstal Ollama di Windows

  1. Unduh: Dapatkan file penginstal OllamaSetup.exe dari situs web Ollama.
  2. Jalankan Penginstal: Klik dua kali file .exe yang diunduh untuk meluncurkan wizard penyiapan. Pastikan Anda memenuhi persyaratan versi Windows minimum (10 22H2+ atau 11).
  3. Ikuti Perintah: Lanjutkan melalui langkah-langkah instalasi, menerima perjanjian lisensi dan memilih lokasi instalasi jika diinginkan (meskipun default biasanya baik-baik saja).

Penginstal mengonfigurasi Ollama untuk berjalan secara otomatis sebagai layanan latar belakang saat sistem Anda dimulai. Ini juga menambahkan executable ollama.exe ke PATH sistem Anda, memungkinkan Anda menggunakan perintah ollama di terminal Windows standar seperti Command Prompt (cmd.exe), PowerShell, atau Terminal Windows yang lebih baru. Server API Ollama dimulai secara otomatis dan mendengarkan di http://localhost:11434.

Akselerasi GPU Ollama untuk Windows:

Menginstal Ollama di Linux

Metode yang paling nyaman untuk sebagian besar distribusi Linux adalah menggunakan skrip instalasi resmi:

curl -fsSL https://ollama.com/install.sh | sh

Perintah ini mengunduh skrip dan menjalankannya menggunakan sh. Skrip melakukan tindakan berikut:

Instalasi Manual Ollama di Linux & Konfigurasi Systemd:
Jika skrip gagal, atau jika Anda lebih suka kontrol manual (misalnya, menginstal ke lokasi yang berbeda, mengelola pengguna secara berbeda, memastikan versi ROCm tertentu), lihat panduan instalasi Linux terperinci di repositori GitHub Ollama. Langkah-langkah umum meliputi:

  1. Mengunduh biner yang benar untuk arsitektur Anda.
  2. Membuat biner dapat dieksekusi (chmod +x ollama) dan memindahkannya ke lokasi di PATH Anda (misalnya, /usr/local/bin).
  3. (Direkomendasikan) Membuat pengguna/grup sistem: sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama dan sudo groupadd ollama, lalu sudo usermod -a -G ollama ollama. Tambahkan pengguna Anda sendiri ke grup: sudo usermod -a -G ollama $USER.
  4. Membuat file layanan systemd (/etc/systemd/system/ollama.service) dengan pengaturan yang sesuai (pengguna, grup, path eksekusi, variabel lingkungan jika diperlukan). Cuplikan contoh biasanya disediakan dalam dokumentasi.
  5. Memuat ulang daemon systemd: sudo systemctl daemon-reload.
  6. Mengaktifkan layanan untuk memulai saat boot: sudo systemctl enable ollama.
  7. Memulai layanan segera: sudo systemctl start ollama. Anda dapat memeriksa statusnya dengan sudo systemctl status ollama.

Driver GPU Linux Penting untuk Ollama:
Untuk kinerja optimal, sangat disarankan untuk menginstal driver GPU:

Menggunakan Gambar Docker Resmi Ollama

Docker menawarkan cara agnostik platform untuk menjalankan Ollama dalam container terisolasi, menyederhanakan manajemen dependensi, terutama untuk pengaturan GPU yang kompleks.

Container Ollama Hanya CPU:

docker run -d \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  --name my_ollama \
  ollama/ollama

Container Ollama dengan GPU NVIDIA:

docker run -d \
  --gpus=all \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  --name my_ollama_gpu \
  ollama/ollama

Flag ini memberikan akses container ke semua GPU NVIDIA yang kompatibel yang terdeteksi oleh toolkit. Anda dapat menentukan GPU tertentu jika diperlukan (misalnya, --gpus '"device=0,1"').

Container Ollama dengan GPU AMD (ROCm):

docker run -d \
  --device /dev/kfd \
  --device /dev/dri \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  --name my_ollama_rocm \
  ollama/ollama:rocm

Setelah container Ollama berjalan, Anda dapat berinteraksi dengannya menggunakan perintah docker exec untuk menjalankan perintah CLI ollama di dalam container:

docker exec -it my_ollama ollama list
docker exec -it my_ollama ollama pull llama3.2
docker exec -it my_ollama ollama run llama3.2

Atau, jika Anda memetakan port (-p), Anda dapat berinteraksi dengan API Ollama secara langsung dari mesin host Anda atau aplikasi lain yang menunjuk ke http://localhost:11434 (atau IP/port yang Anda petakan).

Di mana Ollama menyimpan model? Memahami Lokasi Penyimpanan Ollama

Mengetahui di mana Ollama menyimpan model yang diunduh sangat penting untuk mengelola ruang disk dan cadangan. Lokasi default bervariasi berdasarkan sistem operasi dan metode instalasi:

Anda dapat mengarahkan lokasi penyimpanan model menggunakan variabel lingkungan OLLAMA_MODELS, yang akan kita bahas di bagian Konfigurasi. Ini berguna jika drive utama Anda kehabisan ruang dan Anda lebih suka menyimpan model besar di SSD khusus atau drive yang lebih besar.

Langkah Pertama Anda dengan Ollama: Menjalankan LLM

Sekarang setelah Ollama terinstal dan server aktif (berjalan melalui aplikasi desktop, layanan systemd, atau container Docker), Anda dapat mulai berinteraksi dengan LLM menggunakan perintah ollama sederhana di terminal Anda.

Mengunduh Model Ollama: Perintah pull

Sebelum Anda dapat menjalankan LLM tertentu, Anda harus mengunduh bobot dan file konfigurasinya terlebih dahulu. Ollama menyediakan perpustakaan pilihan model terbuka populer, mudah diakses melalui perintah ollama pull. Anda dapat menelusuri model yang tersedia di halaman perpustakaan situs web Ollama.

# Contoh 1: Tarik model Llama 3.2 8B Instruct terbaru
# Ini sering ditandai sebagai 'latest' atau hanya dengan nama dasar.
ollama pull llama3.2

# Contoh 2: Tarik versi spesifik Mistral (7 Miliar parameter, model dasar)
ollama pull mistral:7b

# Contoh 3: Tarik model Gemma 3 4B Google
ollama pull gemma3

# Contoh 4: Tarik model Phi-4 Mini Microsoft yang lebih kecil (efisien)
ollama pull phi4-mini

# Contoh 5: Tarik model visi (dapat memproses gambar)
ollama pull llava

Memahami Tag Model Ollama:
Model di perpustakaan Ollama menggunakan konvensi penamaan nama_keluarga_model:tag. Tag menentukan variasi seperti:

Perintah pull mengunduh file yang diperlukan (yang bisa berukuran beberapa gigabyte) ke direktori model Ollama yang Anda tentukan. Anda hanya perlu menarik kombinasi model:tag tertentu sekali. Ollama juga dapat memperbarui model; menjalankan pull lagi pada model yang ada hanya akan mengunduh lapisan yang diubah (diffs), membuat pembaruan menjadi efisien.

Obrolan Interaktif dengan Model Ollama: Perintah run

Cara paling langsung untuk berkomunikasi dengan model yang diunduh adalah menggunakan perintah ollama run:

ollama run llama3.2

Jika model yang ditentukan (llama3.2:latest dalam kasus ini) belum ditarik, ollama run akan dengan mudah memicu ollama pull terlebih dahulu. Setelah model siap dan dimuat ke dalam memori (yang mungkin memakan waktu beberapa detik, terutama untuk model yang lebih besar), Anda akan disajikan dengan prompt interaktif:

>>> Kirim pesan (/? untuk bantuan)

Sekarang, Anda cukup mengetik pertanyaan atau instruksi Anda, tekan Enter, dan tunggu AI menghasilkan respons. Output biasanya mengalir token demi token, memberikan nuansa responsif.

>>> Jelaskan konsep keterikatan kuantum dalam istilah sederhana.
Oke, bayangkan Anda memiliki dua koin khusus yang terhubung bersama secara ajaib. Mari kita sebut Koin A dan Koin B. Sebelum Anda melihatnya, tidak ada koin yang menunjukkan gambar atau angka – mereka berada dalam campuran kabur dari kedua kemungkinan tersebut.

Sekarang, Anda memberikan Koin A kepada seorang teman dan melakukan perjalanan bertahun-tahun cahaya dengan Koin B. Saat Anda melihat Koin B Anda dan melihatnya, katakanlah, gambar, Anda langsung tahu *pasti* bahwa Koin A teman Anda adalah angka. Dan jika Anda melihat angka, Anda akan tahu milik mereka adalah gambar.

Itu seperti keterikatan kuantum! Dua partikel (seperti koin kita) menjadi terhubung, dan sifat-sifatnya (seperti gambar/angka) tetap berkorelasi tidak peduli seberapa jauh jaraknya. Mengukur satu partikel secara instan memengaruhi sifat partikel lainnya, lebih cepat daripada kecepatan cahaya dapat melakukan perjalanan di antara keduanya. Ini adalah salah satu bagian paling aneh dan paling keren dari fisika kuantum!

>>> Kirim pesan (/? untuk bantuan)

Perintah Berguna dalam Mode Interaktif Ollama:
Saat berinteraksi dengan model melalui ollama run, Anda dapat menggunakan perintah khusus yang diawali dengan /:

Mengelola Model Ollama Lokal Anda

Saat Anda mengunduh dan membuat model, Anda memerlukan cara untuk mengelolanya:

Mencantumkan Model Ollama yang Diunduh: Untuk melihat semua model yang saat ini disimpan secara lokal, gunakan:

ollama list

Perintah ini menampilkan tabel yang menunjukkan nama model (NAME), ID unik, ukuran pada disk (SIZE), dan waktu modifikasi (MODIFIED).

Menampilkan Informasi Model Ollama Terperinci: Untuk memeriksa spesifikasi model tertentu (parameternya, prompt sistem, template, lisensi, dll.), gunakan:

ollama show llama3.2:8b-instruct-q5_K_M

Ini akan mencetak konten Modelfile, pengaturan parameter, detail template, dan metadata lain yang terkait dengan tag model spesifik tersebut.

Menghapus Model Ollama: Jika Anda tidak lagi membutuhkan model dan ingin mengosongkan ruang disk, gunakan:

ollama rm mistral:7b

Ini secara permanen menghapus kombinasi model:tag yang ditentukan dari penyimpanan Anda. Gunakan dengan hati-hati!

Menyalin/Mengganti Nama Model Ollama: Untuk membuat duplikat model yang ada, mungkin sebagai titik awal untuk kustomisasi atau hanya untuk memberinya nama yang berbeda, gunakan:

ollama cp llama3.2 penyiapan-llama3.2-kustom-saya

Ini membuat entri model baru bernama penyiapan-llama3.2-kustom-saya berdasarkan llama3.2 asli.

Memeriksa Model Ollama yang Sedang Dimuat: Untuk melihat model mana yang saat ini dimuat secara aktif ke RAM atau VRAM Anda dan siap untuk inferensi segera, gunakan:

ollama ps

Perintah ini menunjukkan nama model, ID, ukuran, prosesor yang digunakan (CPU/GPU), dan berapa lama yang lalu terakhir diakses. Model biasanya tetap dimuat untuk periode singkat setelah digunakan (misalnya, 5 menit) untuk mempercepat permintaan berikutnya, kemudian dibongkar secara otomatis untuk mengosongkan sumber daya.

Apa model Ollama terbaik? Memilih LLM yang Tepat

Ini adalah pertanyaan yang sering diajukan dan penting, tetapi jawabannya bernuansa. Tidak ada satu model Ollama "terbaik" tunggal untuk semua orang atau setiap tugas. Pilihan optimal bergantung pada beberapa faktor:

Rekomendasi untuk Pemula (Akhir 2024):

Pendekatan terbaik bersifat empiris: Baca deskripsi model di perpustakaan Ollama, pertimbangkan perangkat keras Anda, unduh beberapa kandidat yang mungkin menggunakan ollama pull, uji mereka dengan prompt tipikal Anda menggunakan ollama run, dan lihat mana yang berkinerja terbaik untuk Anda. Jangan ragu untuk ollama rm model yang tidak memenuhi kebutuhan Anda untuk menghemat ruang.

Mendemistifikasi Konsep Model Ollama

Untuk menggunakan dan menyesuaikan Ollama secara efektif, memahami beberapa konsep inti LLM akan membantu.

Parameter Model Ollama Dijelaskan

LLM memiliki pengaturan internal, atau parameter, yang dapat Anda sesuaikan untuk memengaruhi cara mereka menghasilkan teks. Ollama memungkinkan Anda mengontrol banyak di antaranya:

Anda dapat mengaturnya sementara menggunakan /set parameter di ollama run, secara permanen di Modelfile menggunakan instruksi PARAMETER, atau per permintaan melalui objek options di API Ollama.

Panjang Konteks Ollama: Parameter num_ctx

Panjang konteks, sering disebut sebagai jendela konteks atau num_ctx dalam pengaturan Ollama dan llama.cpp, adalah salah satu batasan arsitektur paling kritis dari LLM.

Pilih nilai num_ctx yang sesuai dengan tugas tipikal Anda. Untuk Tanya Jawab sederhana, jendela yang lebih kecil (misalnya, 4096) mungkin cukup. Untuk obrolan panjang atau meringkas dokumen besar, Anda akan mendapat manfaat dari jendela konteks terbesar yang dapat didukung secara wajar oleh perangkat keras Anda dan model (misalnya, 8192, 16384, atau lebih jika tersedia).

Ollama Tingkat Lanjut: Memanfaatkan API dan Kustomisasi

Meskipun CLI ollama menawarkan interaksi langsung yang mudah, potensi sebenarnya untuk mengintegrasikan Ollama ke dalam alur kerja dan aplikasi terletak pada API REST bawaannya dan sistem kustomisasi Modelfile.

Berinteraksi secara Terprogram dengan API Ollama

Secara default, proses server Ollama (baik berjalan melalui aplikasi desktop, systemd, atau Docker) mendengarkan permintaan HTTP yang masuk pada port 11434 mesin lokal Anda (http://localhost:11434 atau http://127.0.0.1:11434). API ini memungkinkan program, skrip, atau antarmuka web lain yang berjalan di mesin yang sama (atau mesin lain di jaringan, jika dikonfigurasi) untuk berinteraksi dengan model Ollama secara terprogram.

Titik Akhir API Ollama Utama:

Format Permintaan/Respons API:
Sebagian besar permintaan POST dan DELETE mengharapkan payload JSON di body permintaan. Respons biasanya dikembalikan sebagai objek JSON. Untuk titik akhir generate dan chat, Anda dapat mengontrol format respons:

Contoh Interaksi API menggunakan curl:

1. Permintaan Generasi Sederhana (Non-Streaming):

curl http://localhost:11434/api/generate -d '{
  "model": "phi4-mini",
  "prompt": "Tulis fungsi Python singkat untuk menghitung faktorial:",
  "stream": false,
  "options": {
    "temperature": 0.3,
    "num_predict": 80
  }
}'

2. Permintaan Obrolan Percakapan (Streaming):

# Catatan: Output streaming akan muncul sebagai beberapa baris JSON
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2:8b-instruct-q5_K_M",
  "messages": [
    { "role": "system", "content": "Anda adalah sejarawan yang berpengetahuan." },
    { "role": "user", "content": "Apa penyebab utama Perang Dunia I?" }
  ],
  "stream": true,
  "options": {
    "num_ctx": 4096
  }
}'

3. Permintaan Generasi Embedding:

curl http://localhost:11434/api/embeddings -d '{
  "model": "mxbai-embed-large",  # Atau model embedding lain yang sesuai
  "prompt": "Ollama memudahkan menjalankan LLM secara lokal."
}'

API serbaguna ini membentuk tulang punggung untuk integrasi komunitas yang tak terhitung jumlahnya, termasuk antarmuka pengguna web, alat pengembangan, layanan backend, skrip otomatisasi, dan banyak lagi, semuanya didukung oleh instance Ollama lokal Anda.

Memanfaatkan API Kompatibilitas OpenAI Ollama

Menyadari adopsi luas standar API OpenAI, Ollama dengan cermat menyertakan lapisan kompatibilitas eksperimental. Hal ini memungkinkan banyak alat, pustaka, dan aplikasi yang dirancang untuk layanan OpenAI berfungsi dengan instance Ollama lokal Anda dengan modifikasi minimal, seringkali sepele.

Cara Kerjanya:
Server Ollama mengekspos titik akhir di bawah path /v1/ (misalnya, http://localhost:11434/v1/) yang mencerminkan struktur dan format permintaan/respons yang diharapkan dari titik akhir API OpenAI utama.

Titik Akhir Kompatibel Utama:

Menggunakan Pustaka Klien OpenAI dengan Ollama:
Keuntungan utamanya adalah Anda dapat menggunakan pustaka klien OpenAI standar (seperti openai-python, openai-node, dll.) hanya dengan mengubah dua parameter konfigurasi saat menginisialisasi klien:

  1. base_url (atau api_base): Atur ini ke titik akhir Ollama v1 lokal Anda: http://localhost:11434/v1/.
  2. api_key: Berikan string apa saja yang tidak kosong. Titik akhir /v1/ Ollama sebenarnya tidak melakukan autentikasi dan mengabaikan nilai kunci, tetapi sebagian besar pustaka klien OpenAI mengharuskan parameter tersebut ada. Praktik umum adalah menggunakan string "ollama" atau "nokey".

Contoh Python menggunakan openai-python:

# Pastikan Anda telah menginstal pustaka openai: pip install openai
from openai import OpenAI
import os

# Tentukan titik akhir Ollama dan kunci API tiruan
OLLAMA_BASE_URL = "http://localhost:11434/v1"
OLLAMA_API_KEY = "ollama" # Placeholder, nilai diabaikan oleh Ollama

# Tentukan model Ollama lokal yang ingin Anda gunakan
OLLAMA_MODEL = "llama3.2"

try:
    # Inisialisasi klien OpenAI, arahkan ke server Ollama
    client = OpenAI(
        base_url=OLLAMA_BASE_URL,
        api_key=OLLAMA_API_KEY,
    )

    print(f"Mengirim permintaan ke model Ollama: {OLLAMA_MODEL} melalui lapisan kompatibilitas OpenAI...")

    # Buat permintaan penyelesaian obrolan standar
    chat_completion = client.chat.completions.create(
        model=OLLAMA_MODEL, # Gunakan nama model Ollama lokal Anda
        messages=[
            {"role": "system", "content": "Anda adalah asisten yang membantu."},
            {"role": "user", "content": "Jelaskan perbedaan antara Ollama dan llama.cpp."}
        ],
        temperature=0.7,
        max_tokens=250, # Catatan: 'max_tokens' kira-kira sesuai dengan 'num_predict' Ollama
        stream=False # Atur ke True untuk respons streaming
    )

    # Proses respons
    if chat_completion.choices:
        response_content = chat_completion.choices[0].message.content
        print("\nRespons Ollama:")
        print(response_content)
        print("\nStatistik Penggunaan:")
        print(f"  Token Prompt: {chat_completion.usage.prompt_tokens}")
        print(f"  Token Penyelesaian: {chat_completion.usage.completion_tokens}")
        print(f"  Total Token: {chat_completion.usage.total_tokens}")
    else:
        print("Tidak ada pilihan respons yang diterima dari Ollama.")

except Exception as e:
    print(f"\nTerjadi kesalahan:")
    print(f"  Jenis Kesalahan: {type(e).__name__}")
    print(f"  Detail Kesalahan: {e}")
    print(f"\nPastikan server Ollama berjalan dan dapat diakses di {OLLAMA_BASE_URL}.")
    print(f"Juga verifikasi model '{OLLAMA_MODEL}' tersedia secara lokal ('ollama list').")

Kompatibilitas ini secara signifikan menyederhanakan migrasi proyek berbasis OpenAI yang ada untuk menggunakan model lokal melalui Ollama atau membangun aplikasi baru yang dapat secara fleksibel beralih antara backend cloud dan lokal. Meskipun tidak semua fitur OpenAI yang tidak jelas mungkin dicerminkan dengan sempurna, fungsi inti obrolan, embedding, dan daftar model didukung dengan baik.

Kustomisasi Mendalam Ollama dengan Modelfiles

Modelfile adalah landasan kemampuan kustomisasi Ollama. Ini bertindak sebagai cetak biru atau resep, mendefinisikan secara tepat bagaimana model Ollama harus dibangun atau dimodifikasi. Dengan membuat dan mengedit file teks sederhana ini, Anda mendapatkan kontrol terperinci atas perilaku, parameter, dan struktur model.

Instruksi Modelfile Ollama Inti:

TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}{{ range .Messages }}
<|im_start|>{{ .Role }}
{{ .Content }}<|im_end|>{{ end }}
<|im_start|>assistant
"""

Mendapatkan template yang benar sangat penting untuk membuat model mengikuti instruksi atau berkomunikasi secara alami. Anda dapat melihat template default model menggunakan ollama show --modelfile <nama_model>.

Membangun Model Ollama dari Modelfile:
Setelah Anda membuat Modelfile Anda (misalnya, disimpan sebagai MyCustomModel.modelfile), Anda menggunakan perintah ollama create untuk membangun model Ollama yang sesuai:

ollama create nama-model-baru-saya -f MyCustomModel.modelfile

Ollama memproses instruksi, berpotensi menggabungkan lapisan, menerapkan adaptor, menetapkan parameter, dan mendaftarkan model baru (nama-model-baru-saya) di perpustakaan lokal Anda. Anda kemudian dapat menjalankannya seperti model lainnya: ollama run nama-model-baru-saya.

Mengimpor Model Eksternal ke Ollama (GGUF, Safetensors)

Sistem Modelfile Ollama menyediakan cara mulus untuk menggunakan model yang diperoleh dari sumber lain (seperti Hugging Face, peneliti independen, dll.) yang didistribusikan dalam format standar.

Mengimpor Model GGUF ke Ollama: GGUF adalah format populer yang dirancang khusus untuk llama.cpp dan mesin inferensi serupa. Ini mengemas bobot model (seringkali sudah dikuantisasi), informasi tokenizer, dan metadata ke dalam satu file. Ini seringkali merupakan format yang paling mudah untuk diimpor.

  1. Unduh file .gguf (misalnya, zephyr-7b-beta.Q5_K_M.gguf).
  2. Buat Modelfile minimal (misalnya, ZephyrImport.modelfile):
# ZephyrImport.modelfile
FROM ./zephyr-7b-beta.Q5_K_M.gguf

# Penting: Tambahkan template prompt yang benar untuk model ini!
# (Cari format template yang diperlukan model)
TEMPLATE """<|system|>
{{ .System }}</s>
<|user|>
{{ .Prompt }}</s>
<|assistant|>
{{ .Response }}</s>
"""
PARAMETER num_ctx 4096 # Tetapkan konteks default yang wajar
SYSTEM "Anda adalah chatbot yang ramah." # Prompt sistem default opsional
  1. Bangun model Ollama: ollama create my-zephyr-gguf -f ZephyrImport.modelfile.

Mengimpor Model Safetensors (Bobot Penuh) ke Ollama: Safetensors adalah format yang aman dan cepat untuk menyimpan tensor model. Jika Anda memiliki set lengkap bobot dan file konfigurasi untuk model dalam format ini:

  1. Pastikan semua file yang diperlukan (file bobot *.safetensors, config.json, tokenizer.json, special_tokens_map.json, tokenizer_config.json, dll.) terletak di dalam satu direktori (misalnya, /data/models/Mistral-7B-v0.1-full/).
  2. Buat Modelfile yang mereferensikan direktori ini:
# MistralImport.modelfile
FROM /data/models/Mistral-7B-v0.1-full/

# Tambahkan instruksi TEMPLATE, PARAMETER, SYSTEM yang diperlukan
TEMPLATE """[INST] {{ if .System }}{{ .System }} \n{{ end }}{{ .Prompt }} [/INST]
{{ .Response }}"""
PARAMETER num_ctx 4096
PARAMETER temperature 0.7
  1. Bangun model: ollama create my-mistral-safetensors -f MistralImport.modelfile. Ollama akan mencoba memuat arsitektur yang kompatibel. Jika model tidak dikuantisasi (misalnya, FP16), Anda dapat secara opsional mengkuantisasinya selama pembuatan (lihat di bawah).

Menerapkan Adaptor LoRA Safetensors melalui Modelfile Ollama:

  1. Pertama, pastikan Anda memiliki model Ollama dasar yang tepat tempat adaptor LoRA dilatih. Tarik jika perlu (misalnya, ollama pull llama3.2:8b).
  2. Tempatkan file adaptor LoRA (misalnya, adapter_model.safetensors, adapter_config.json) di direktorinya sendiri (misalnya, /data/adapters/my_llama3_lora/).
  3. Buat Modelfile yang menentukan dasar dan adaptor:
# ApplyLora.modelfile
FROM llama3.2:8b # Harus cocok dengan dasar adaptor!

ADAPTER /data/adapters/my_llama3_lora/

# Sesuaikan parameter atau template jika LoRA memerlukannya
PARAMETER temperature 0.5
SYSTEM "Sekarang Anda merespons dengan gaya yang diajarkan oleh LoRA."
  1. Bangun model yang diadaptasi: ollama create llama3-with-my-lora -f ApplyLora.modelfile.

Mengkuantisasi Model dengan Ollama

Kuantisasi adalah proses mengurangi presisi numerik bobot model (misalnya, mengubah angka floating-point 16-bit menjadi bilangan bulat 4-bit). Ini secara signifikan menyusutkan ukuran file model dan jejak memori (penggunaan RAM/VRAM) dan mempercepat inferensi, memungkinkan untuk menjalankan model yang lebih besar dan lebih mampu pada perangkat keras konsumen. Trade-off biasanya berupa penurunan kecil, seringkali tidak kentara, dalam kualitas output.

Ollama dapat melakukan kuantisasi selama proses pembuatan model jika instruksi FROM di Modelfile Anda menunjuk ke bobot model yang tidak dikuantisasi atau presisi lebih tinggi (biasanya Safetensors FP16 atau FP32).

Cara Mengkuantisasi menggunakan ollama create:

  1. Buat Modelfile yang menunjuk ke direktori yang berisi bobot model yang tidak dikuantisasi:
# QuantizeMe.modelfile
FROM /path/to/my/unquantized_fp16_model/
# Tambahkan TEMPLATE, PARAMETER, SYSTEM sesuai kebutuhan
  1. Jalankan perintah ollama create, tambahkan flag -q (atau --quantize) diikuti oleh pengidentifikasi tingkat kuantisasi yang diinginkan:
# Kuantisasi ke Q4_K_M (keseimbangan populer ukuran/kualitas)
ollama create my-quantized-model-q4km -f QuantizeMe.modelfile -q q4_K_M

# Kuantisasi ke Q5_K_M (sedikit lebih besar, kualitas berpotensi lebih baik)
ollama create my-quantized-model-q5km -f QuantizeMe.modelfile -q q5_K_M

# Kuantisasi ke Q8_0 (kuantisasi umum terbesar, kualitas terbaik di antara yang dikuantisasi)
ollama create my-quantized-model-q8 -f QuantizeMe.modelfile -q q8_0

# Kuantisasi ke Q3_K_S (sangat kecil, lebih banyak kehilangan kualitas)
ollama create my-quantized-model-q3ks -f QuantizeMe.modelfile -q q3_K_S

Ollama menggunakan rutinitas kuantisasi dari llama.cpp untuk melakukan konversi dan menyimpan model yang baru dikuantisasi dengan nama yang ditentukan.

Tingkat Kuantisasi Umum:

Memilih tingkat kuantisasi yang tepat tergantung pada batasan perangkat keras Anda dan toleransi terhadap potensi penurunan kualitas. Seringkali layak untuk mencoba q4_K_M atau q5_K_M terlebih dahulu.

Berbagi Model Ollama Kustom Anda

Jika Anda telah membuat varian model unik menggunakan Modelfile – mungkin dengan menerapkan LoRA tertentu, menetapkan prompt sistem dan template kreatif, atau menyempurnakan parameter – Anda dapat membagikan kreasi Anda dengan komunitas Ollama yang lebih luas melalui situs web registri model Ollama resmi.

Langkah-langkah untuk Berbagi Model Ollama:

  1. Buat Akun Ollama: Daftar akun gratis di situs web Ollama (ollama.com). Nama pengguna yang Anda pilih akan menjadi namespace untuk model bersama Anda.
  2. Tautkan Ollama Lokal Anda: Anda perlu mengaitkan instalasi Ollama lokal Anda dengan akun online Anda. Ini melibatkan penambahan kunci publik Ollama mesin lokal Anda ke pengaturan akun Anda di situs web. Situs web menyediakan instruksi spesifik tentang cara menemukan file kunci publik lokal Anda (id_ed25519.pub) berdasarkan sistem operasi Anda.
  3. Beri Nama Model Anda dengan Benar: Model bersama harus diberi namespace dengan nama pengguna Ollama Anda, mengikuti format nama_pengguna_anda/nama_model_anda. Jika model kustom lokal Anda memiliki nama yang berbeda (misalnya, mario), Anda pertama-tama perlu menyalinnya ke nama dengan namespace yang benar menggunakan ollama cp:
# Dengan asumsi nama pengguna Anda adalah 'luigi' dan model lokal adalah 'mario'
ollama cp mario luigi/mario
  1. Dorong Model ke Registri: Setelah model diberi nama dengan benar secara lokal dan kunci Anda ditautkan, gunakan perintah ollama push:
ollama push luigi/mario

Ollama akan mengunggah lapisan model dan metadata yang diperlukan ke registri.

Setelah push selesai, pengguna Ollama lain di seluruh dunia dapat dengan mudah mengunduh dan menjalankan model bersama Anda hanya dengan menggunakan nama namespace-nya:

ollama run luigi/mario

Mekanisme berbagi ini mendorong kolaborasi dan memungkinkan komunitas mendapat manfaat dari model khusus atau yang disesuaikan secara kreatif.

Mengoptimalkan Kinerja Ollama dengan Akselerasi GPU

Meskipun Ollama dapat menjalankan model murni pada CPU komputer Anda, memanfaatkan Unit Pemrosesan Grafis (GPU) yang kompatibel memberikan peningkatan kinerja yang dramatis, secara signifikan mempercepat kecepatan model menghasilkan teks (kecepatan inferensi). Ollama dirancang untuk secara otomatis mendeteksi dan memanfaatkan GPU yang didukung bila memungkinkan.

Ollama dengan GPU NVIDIA: Ollama menawarkan dukungan luar biasa untuk GPU NVIDIA, membutuhkan:

Ollama dengan GPU AMD Radeon: Dukungan untuk GPU AMD modern tersedia di Windows dan Linux:

Ollama dengan Apple Silicon (macOS): Pada Mac yang dilengkapi dengan chip seri M1, M2, M3, atau M4, Ollama secara otomatis memanfaatkan kemampuan GPU bawaan melalui API grafis Metal Apple. Biasanya tidak diperlukan instalasi driver atau konfigurasi tambahan; akselerasi GPU berfungsi begitu saja.

Memverifikasi Penggunaan GPU Ollama:
Cara termudah untuk memeriksa apakah Ollama benar-benar menggunakan GPU Anda adalah dengan menjalankan perintah ollama ps saat model dimuat (misalnya, segera setelah memulai ollama run <model> di terminal lain, atau saat permintaan API sedang diproses). Periksa kolom PROCESSOR di output:

Memilih GPU Spesifik dalam Pengaturan Ollama Multi-GPU:
Jika sistem Anda berisi beberapa GPU yang kompatibel, Anda dapat menginstruksikan Ollama (dan llama.cpp yang mendasarinya) perangkat spesifik mana yang akan digunakan dengan mengatur variabel lingkungan sebelum meluncurkan proses server/aplikasi Ollama:

Mengatur ID perangkat yang tidak valid (misalnya, export CUDA_VISIBLE_DEVICES=-1) sering digunakan sebagai cara untuk sengaja memaksa Ollama hanya menggunakan CPU, yang dapat berguna untuk debugging. Ingatlah untuk memulai ulang server/aplikasi Ollama setelah mengatur variabel lingkungan ini agar berlaku.

Mengonfigurasi Lingkungan Ollama Anda

Di luar pengaturan default, perilaku Ollama dapat disesuaikan menggunakan berbagai variabel lingkungan. Ini memungkinkan Anda menyesuaikan pengaturan jaringan, lokasi penyimpanan, tingkat logging, dan lainnya.

Variabel Lingkungan Ollama Utama untuk Konfigurasi

Metode untuk Mengatur Variabel Lingkungan Ollama

Cara yang benar untuk mengatur variabel ini tergantung pada bagaimana Anda menginstal dan menjalankan Ollama:

Ollama di macOS (Menggunakan App): Variabel lingkungan untuk aplikasi GUI di macOS paling baik diatur menggunakan launchctl. Buka Terminal dan gunakan:

launchctl setenv OLLAMA_MODELS "/Volumes/ExternalSSD/OllamaStorage"
launchctl setenv OLLAMA_HOST "0.0.0.0:11434"
# Ulangi untuk variabel lain

Setelah mengatur variabel, Anda harus Keluar dan memulai ulang aplikasi Ollama dari ikon bilah menu agar perubahan berlaku.

Ollama di Linux (Menggunakan Layanan Systemd): Metode yang disarankan adalah membuat file override untuk layanan:

  1. Jalankan sudo systemctl edit ollama.service. Ini membuka editor teks kosong.
  2. Tambahkan baris berikut, ubah variabel dan nilai sesuai kebutuhan:
[Service]
Environment="OLLAMA_MODELS=/path/to/custom/model/dir"
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_DEBUG=1"
  1. Simpan dan tutup editor.
  2. Terapkan perubahan: sudo systemctl daemon-reload
  3. Mulai ulang layanan Ollama: sudo systemctl restart ollama

Ollama di Windows: Gunakan editor Variabel Lingkungan bawaan:

  1. Cari "Edit the system environment variables" di menu Start dan buka.
  2. Klik tombol "Variabel Lingkungan...".
  3. Anda dapat mengatur variabel untuk pengguna spesifik Anda ("Variabel pengguna") atau untuk semua pengguna ("Variabel sistem"). Variabel sistem biasanya memerlukan hak administrator.
  4. Klik "Baru..." di bawah bagian yang diinginkan.
  5. Masukkan Nama variabel (misalnya, OLLAMA_MODELS) dan Nilai variabel (misalnya, D:\OllamaData).
  6. Klik OK pada semua dialog yang terbuka.
  7. Secara krusial, Anda harus memulai ulang proses latar belakang Ollama. Buka Task Manager (Ctrl+Shift+Esc), buka tab "Layanan", temukan "Ollama", klik kanan, dan pilih "Mulai Ulang". Atau, restart komputer Anda.

Ollama melalui Docker: Lewatkan variabel lingkungan secara langsung dalam perintah docker run menggunakan flag -e untuk setiap variabel:

docker run -d \
  --gpus=all \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  -e OLLAMA_HOST="0.0.0.0:11434" \
  -e OLLAMA_DEBUG="1" \
  -e OLLAMA_KEEP_ALIVE="10m" \
  --name my_ollama_configured \
  ollama/ollama

Ollama melalui ollama serve manual di Terminal: Cukup awali perintah dengan penetapan variabel pada baris yang sama:

OLLAMA_DEBUG=1 OLLAMA_HOST=0.0.0.0:11434 OLLAMA_MODELS=/data/ollama ollama serve

Variabel ini hanya akan berlaku untuk instance server spesifik tersebut.

Pilih metode yang sesuai untuk penyiapan Anda dan ingatlah untuk memulai ulang proses server Ollama setelah melakukan perubahan agar aktif.

Memecahkan Masalah Umum Ollama

Bahkan dengan fokus Ollama pada kesederhanaan, Anda mungkin sesekali mengalami hambatan. Berikut cara mendiagnosis dan menyelesaikan beberapa masalah umum:

Memeriksa Log Ollama

Alat diagnostik utama Anda adalah file log server Ollama. Ini mencatat informasi startup, upaya pemuatan model, hasil deteksi GPU, permintaan API, dan, yang paling penting, pesan kesalahan terperinci.

Lokasi File Log Default:

Tips: Untuk pemecahan masalah yang lebih rinci, selalu aktifkan logging debug dengan mengatur variabel lingkungan OLLAMA_DEBUG=1 sebelum memulai server Ollama, lalu periksa kembali log.

Memperbaiki Kesalahan Ollama: listen tcp 127.0.0.1:11434: bind: address already in use

Pesan kesalahan spesifik ini adalah salah satu masalah paling umum yang dihadapi pengguna baru. Ini berarti Ollama tidak dapat memulai server API-nya karena proses lain sudah menempati port jaringan (default 11434) yang perlu didengarkan Ollama.

Menyelesaikan Masalah Deteksi dan Penggunaan GPU Ollama

Jika ollama ps menunjukkan cpu alih-alih gpu, atau jika Anda mengalami kesalahan spesifik terkait GPU di log (seperti CUDA error, ROCm error), ikuti langkah-langkah berikut:

Mengatasi Masalah Umum Ollama Lainnya

Jika Anda telah mencoba semua langkah pemecahan masalah ini dan memeriksa log debug tanpa hasil, komunitas Ollama adalah sumber daya yang bagus. Siapkan deskripsi masalah yang jelas, sertakan detail relevan tentang OS Anda, versi Ollama, perangkat keras (CPU/GPU/RAM), model spesifik yang Anda gunakan, perintah yang Anda jalankan, dan secara krusial, bagian relevan dari log debug Anda. Posting pertanyaan Anda di Discord Ollama atau ajukan issue yang terdokumentasi dengan baik di repositori GitHub Ollama.

Cara menghapus instalan Ollama sepenuhnya

Jika Anda perlu menghapus Ollama dari sistem Anda, prosesnya bervariasi berdasarkan metode instalasi awal Anda. Biasanya melibatkan penghapusan aplikasi/biner, layanan latar belakang (jika berlaku), dan file model/konfigurasi yang disimpan.

Menghapus Instalan Ollama di macOS (Diinstal melalui .app):

  1. Keluar dari Ollama: Klik ikon Ollama di bilah menu dan pilih "Keluar dari Ollama".
  2. Hapus Aplikasi: Seret Ollama.app dari folder /Applications Anda ke Tong Sampah/Bin.
  3. Hapus Data dan Konfigurasi: Buka Terminal dan jalankan rm -rf ~/.ollama. Peringatan: Ini menghapus semua model dan konfigurasi yang diunduh secara permanen. Periksa kembali perintah sebelum menjalankan.
  4. (Opsional) Batalkan Pengaturan Variabel Lingkungan: Jika Anda mengatur variabel secara manual menggunakan launchctl setenv, Anda dapat membatalkannya: launchctl unsetenv OLLAMA_HOST, launchctl unsetenv OLLAMA_MODELS, dll.

Menghapus Instalan Ollama di Windows (Diinstal melalui .exe):

  1. Gunakan Penghapus Instalan Windows: Buka "Pengaturan" > "Aplikasi" > "Aplikasi terinstal". Cari "Ollama" dalam daftar, klik tiga titik (...) di sebelahnya, dan pilih "Hapus instalan". Ikuti petunjuk penghapusan instalan.
  2. Hapus Data dan Konfigurasi: Setelah penghapus instalan selesai, hapus direktori data Ollama secara manual. Buka File Explorer, ketik %USERPROFILE%\.ollama di bilah alamat, tekan Enter, dan hapus seluruh folder .ollama. Peringatan: Ini menghapus semua model.
  3. (Opsional) Hapus Variabel Lingkungan: Jika Anda menambahkan OLLAMA_HOST, OLLAMA_MODELS, dll., secara manual melalui Properti Sistem, kembali ke sana ("Edit variabel lingkungan sistem") dan hapus.

Menghapus Instalan Ollama di Linux (Diinstal melalui Skrip atau Biner Manual):

  1. Hentikan Layanan: sudo systemctl stop ollama
  2. Nonaktifkan Layanan: sudo systemctl disable ollama
  3. Hapus Biner: sudo rm /usr/local/bin/ollama (atau path tempat Anda menginstalnya).
  4. Hapus File Layanan: sudo rm /etc/systemd/system/ollama.service
  5. Muat Ulang Systemd: sudo systemctl daemon-reload
  6. (Opsional) Hapus Pengguna/Grup: Jika pengguna/grup ollama dibuat: sudo userdel ollama, sudo groupdel ollama.
  7. Hapus Data dan Konfigurasi: Hapus direktori penyimpanan model. Ini tergantung di mana ia disimpan:

Menghapus Instalan Ollama melalui Docker:

  1. Hentikan Container: docker stop my_ollama (gunakan nama container Anda).
  2. Hapus Container: docker rm my_ollama.
  3. Hapus Gambar: docker rmi ollama/ollama (dan ollama/ollama:rocm jika Anda menggunakannya).
  4. (Opsional, Merusak) Hapus Volume: Jika Anda ingin menghapus semua model yang diunduh yang disimpan dalam volume Docker, jalankan docker volume rm ollama_data (gunakan nama volume yang Anda buat). Peringatan: Ini tidak dapat diurungkan.

Kesimpulan: Merangkul Kekuatan AI Lokal dengan Ollama

Ollama berdiri sebagai alat penting dalam mendemokratisasi akses ke kekuatan luar biasa dari Model Bahasa Besar modern. Dengan secara elegan mengabstraksi kompleksitas penyiapan, konfigurasi, dan eksekusi, ia memberdayakan beragam pengguna – mulai dari pengembang dan peneliti berpengalaman hingga penggemar yang ingin tahu – untuk menjalankan AI canggih secara langsung di perangkat keras mereka sendiri. Keuntungannya jelas: privasi yang tak tertandingi, kebebasan dari biaya API berulang, operasi offline yang andal, dan kemampuan membebaskan untuk menyesuaikan dan bereksperimen secara mendalam dengan model menggunakan sistem Modelfile yang intuitif dan API yang kuat.

Apakah tujuan Anda adalah membangun generasi berikutnya dari aplikasi berbasis AI, melakukan penelitian mutakhir sambil mempertahankan kedaulatan data, atau sekadar menjelajahi kemampuan menarik dari generasi bahasa tanpa ketergantungan eksternal, Ollama menyediakan fondasi yang stabil, efisien, dan ramah pengguna. Ia berhasil menjembatani kesenjangan antara kekuatan mentah mesin inferensi seperti llama.cpp dan kebutuhan praktis pengguna, mendorong inovasi dalam lanskap AI sumber terbuka yang semarak.

Perjalanan ke dunia LLM lokal dapat diakses dan sangat bermanfaat, berkat Ollama. Unduh aplikasinya, tarik model pertama Anda menggunakan ollama pull, mulai percakapan dengan ollama run, dan mulailah membuka potensi besar kecerdasan buatan, langsung di mesin Anda sendiri.

💡
Ingin alat Pengujian API yang hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button

Explore more

Cara Menggunakan OpenAI Sora Secara Gratis: Panduan Lengkap untuk Microsoft Bing Video Creator

Cara Menggunakan OpenAI Sora Secara Gratis: Panduan Lengkap untuk Microsoft Bing Video Creator

💡Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah? Ingin platform Terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum? Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!tombol Model teks-ke-video mutakhir OpenAI, Sora, telah mengubah pembuatan konten yang dihasilkan AI dengan kemampuannya menciptakan video yang sangat realistis dari instruksi teks sederhana. Namun, biaya

3 June 2025

Di Mana Unduh Swagger UI Bahasa Indonesia Gratis?

Di Mana Unduh Swagger UI Bahasa Indonesia Gratis?

Ingin Swagger UI dalam Bahasa Indonesia? Artikel ini menjelaskan mengapa tidak ada unduhan resmi gratis dan cara mengaktifkan terjemahan. Jelajahi fitur Swagger dan lihat mengapa Apidog adalah alternatif Swagger superior untuk desain, pengujian, dan dokumentasi API yang terintegrasi.

23 April 2025

Di Mana Mengunduh Postman Bahasa Indonesia Gratis?

Di Mana Mengunduh Postman Bahasa Indonesia Gratis?

Bisakah Anda mengunduh Postman Bahasa Indonesia gratis? Meskipun Postman tidak memiliki dukungan Bahasa Indonesia native, ada solusi lain. Jelajahi ini & temukan Apidog, alternatif Postman terpadu yang kuat untuk menyederhanakan alur kerja API Anda, apa pun bahasanya.

22 April 2025

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.