Cara Membangun Otomatisasi Browser Bertenaga AI dengan Python, Ollama & DeepSeek

tombol

Otomatisasi peramban modern berkembang pesat. Hilang sudah masa-masa skrip Selenium yang rapuh dan alur kerja yang mudah rusak. Dengan alat sumber terbuka seperti Browser Use, dikombinasikan dengan host LLM lokal seperti Ollama dan mesin penalaran canggih seperti DeepSeek, pengembang kini dapat membangun agen AI yang menjelajahi web, berinteraksi dengan formulir, mengekstrak data, dan mengotomatiskan tugas dengan andal—semuanya ditenagai oleh instruksi bahasa alami.

Dalam panduan ini, Anda akan belajar cara mengatur tumpukan yang kuat ini, memahami peran setiap komponen, dan menulis agen AI berbasis Python yang dapat mengontrol peramban Anda secara terprogram. Baik Anda seorang pengembang API, insinyur backend, atau spesialis QA, pendekatan ini membuka kemungkinan baru untuk otomatisasi peramban yang tangguh, privat, dan skalabel.

Mengapa Memilih Browser Use, Ollama, dan DeepSeek untuk Otomatisasi Peramban AI?

Browser Use: Sebuah paket Python untuk mengatur tindakan peramban (navigasi, klik, ekstrak).
Ollama: Sebuah server LLM lokal, memungkinkan inferensi model privat berkinerja tinggi pada perangkat keras Anda.
DeepSeek: Sebuah mesin penalaran canggih (misalnya, deepseek/seed atau deepseek-r1) yang menerjemahkan instruksi tingkat tinggi menjadi langkah-langkah peramban yang dapat ditindaklanjuti.

Bersama-sama, alat-alat ini memberdayakan Anda untuk membangun agen AI yang dapat:

Mengotomatiskan navigasi web dan ekstraksi data
Mengisi formulir dan berinteraksi dengan halaman dinamis
Menjalankan tugas multi-langkah berdasarkan prompt bahasa alami

Prasyarat: Menyiapkan Lingkungan Pengembangan Anda

Sebelum Anda menyelam, pastikan sistem Anda memenuhi persyaratan berikut:

Python 3.11+ (python --version)
Ollama (unduh dari ollama.com)
Node.js (node --version, diperlukan untuk otomatisasi peramban melalui Playwright)
Git (untuk mengkloning repositori)
Perangkat Keras: Setidaknya 4 core CPU, 16GB RAM, dan 12GB penyimpanan kosong (untuk DeepSeek). GPU adalah opsional tetapi direkomendasikan untuk model besar.

Tip: Instal komponen yang hilang untuk menghindari masalah penyiapan di kemudian hari.

Penyiapan Langkah demi Langkah: Membangun Proyek Otomatisasi Peramban AI Anda

1. Atur Proyek Anda

Buat folder khusus untuk pekerjaan Anda:

mkdir browser-use-agent
cd browser-use-agent

2. Klon Repositori Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. Buat dan Aktifkan Lingkungan Virtual Python

Ini menjaga dependensi tetap terisolasi:

python -m venv venv
# Aktifkan:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

Anda akan melihat (venv) di terminal Anda, mengkonfirmasi aktivasi.

4. Buka Proyek Anda di VS Code

VS Code menawarkan integrasi Python yang sangat baik:

code .

Tidak punya VS Code? Unduh atau gunakan editor favorit Anda.

Menginstal Ollama dan DeepSeek Secara Lokal

1. Instal Ollama

Unduh dan instal dari ollama.com. Setelah menginstal, konfirmasikan bahwa itu berfungsi:

ollama --version

2. Unduh Model DeepSeek

Untuk penalaran berkualitas tinggi, gunakan model DeepSeek “seed”:

ollama pull deepseek/seed

Catatan: Model ini berukuran sekitar 12GB. Jika penyimpanan atau GPU terbatas, coba qwen2.5:14b (sekitar 4GB).
Verifikasi instalasi:

ollama list

Cari deepseek-r1 atau model pilihan Anda.

Menginstal Browser Use dan Dependensi yang Diperlukan

1. Instal Browser Use dan Alat Pengembangan

Di lingkungan virtual Anda, jalankan:

pip install . ."[dev]"

2. Tambahkan Integrasi LangChain dan Ollama

pip install langchain langchain-ollama

Paket-paket ini menghubungkan agen Anda dengan LLM lokal.

3. Instal Playwright untuk Otomatisasi Peramban

playwright install

Jika Anda mengalami masalah, pastikan Python 3.11+ aktif, atau jalankan:

playwright install-deps

Mengkonfigurasi Tumpukan: Menghubungkan Browser Use ke Ollama & DeepSeek

Mulai server Ollama di terminal terpisah:

ollama serve

Ini meluncurkan server LLM di http://localhost:11434. Biarkan ini berjalan saat Anda bekerja.

Contoh: Membangun Agen AI untuk Memeriksa Cuaca Boston di Google

Mari kita buat skrip Python yang menginstruksikan agen AI Anda untuk menggunakan Google dan mengambil cuaca Boston.

Buat test.py di folder proyek Anda dan tambahkan:

import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Gunakan Google untuk menemukan cuaca di Boston, Massachusetts", # Translated task
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())

Pastikan VS Code menggunakan interpreter Python lingkungan virtual Anda
- Tekan Ctrl+P (atau Cmd+P di Mac)
- Ketik > Select Python Interpreter
- Pilih interpreter .venv dari proyek Anda
Jalankan skrip:

python test.py

Agen akan meluncurkan peramban, mencari cuaca Boston di Google, dan mengeluarkan hasilnya.

Jika Anda melihat kesalahan, konfirmasikan bahwa Ollama sedang berjalan (ollama serve) dan port 11434 terbuka. Untuk pemecahan masalah, periksa log di ~/.ollama/logs.

Mengintegrasikan Apidog: Pengujian API yang Andal untuk Agen AI Peramban

Ketika agen AI peramban Anda berinteraksi dengan API web—seperti mengambil endpoint atau mengotomatiskan alur kerja berbasis API—validasi kontrak API yang andal menjadi penting.

Bagaimana Apidog membantu:

Pengujian API otomatis memastikan endpoint berfungsi seperti yang diharapkan
Menghasilkan dan mengelola kasus uji API untuk backend Anda
Memvalidasi kontrak API di seluruh staging dan produksi

Apidog terintegrasi dengan mulus ke dalam pipeline otomatisasi peramban, memungkinkan Anda memverifikasi bahwa API yang diandalkan agen Anda tangguh dan konsisten.

Mulai gunakan Apidog secara gratis untuk memperkuat alur kerja AI peramban Anda.

Pengujian Kontrak API dengan Apidog

tombol

Kiat untuk Rekayasa Prompt yang Efektif

Dapatkan otomatisasi yang lebih akurat dengan membuat prompt yang jelas dan spesifik:

Bersikap Spesifik:
"Pergi ke kayak.com, cari penerbangan dari Zurich ke Beijing, 25.12.2025–02.02.2026, urutkan berdasarkan harga"
lebih baik daripada
"Cari penerbangan."
Memecah Tugas Kompleks:
misalnya, "Kunjungi LinkedIn, cari pekerjaan ML, simpan tautan ke file, lamar 3 teratas."
Iterasi dan Sempurnakan:
Sesuaikan prompt Anda jika hasilnya tidak seperti yang diharapkan. Pengujian dalam obrolan Open WebUI dapat membantu.

Debugging dan Pemecahan Masalah

Periksa Log Ollama:
Terletak di ~/.ollama/logs, berguna untuk mendiagnosis kesalahan model.
Pantau Output Playwright:
Playwright mencatat semua tindakan dan kesalahan di terminal Anda.
Performa:
Jika model DeepSeek berjalan lambat, pertimbangkan model yang lebih ringan atau pengaturan komputasi terdistribusi.
Ubah Tugas dengan Mudah:
Perbarui string task dalam skrip Anda untuk mengotomatiskan alur kerja yang berbeda (misalnya, mengambil bintang GitHub, mengotomatiskan alur login).

Pertanyaan yang Sering Diajukan

Q1. Apa itu Browser Use?
Sebuah paket Python untuk otomatisasi peramban yang digerakkan AI menggunakan Playwright. GitHub

Q2. Apakah saya memerlukan GPU?
Tidak diperlukan untuk model yang lebih kecil seperti DeepSeek/seed, tetapi GPU mempercepat model yang lebih besar.

Q3. Bisakah saya menggunakan model selain DeepSeek?
Ya, model apa pun yang mampu penalaran yang didukung oleh Ollama dapat berfungsi. GitHub

Q4. Apakah data saya diproses secara lokal?
Ya. Menjalankan Ollama menyimpan data dan inferensi di mesin Anda kecuali dikonfigurasi sebaliknya. Chrome Web Store

Q5. Bisakah saya mengotomatiskan login dan tugas multi-langkah?
Tentu saja—cukup definisikan tugas tingkat tinggi Anda, dan agen AI akan memecahnya.

Kesimpulan

Dengan Python, Browser Use, Ollama, dan DeepSeek, Anda dapat membangun agen AI yang tangguh yang mengotomatiskan peramban sungguhan menggunakan instruksi bahasa alami. Tumpukan ini ideal untuk tim berbasis API yang membutuhkan otomatisasi yang andal, privat, dan kuat—baik untuk QA, integrasi backend, atau pengujian tingkat lanjut.

Tambahkan Apidog ke alur kerja Anda untuk memvalidasi dan menguji API yang berinteraksi dengan agen Anda, memastikan otomatisasi Anda selalu berfungsi sesuai tujuan.

Siap membangun agen peramban cerdas? Mulai hari ini dan sederhanakan otomatisasi web Anda dengan percaya diri.

tombol