สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek

ปุ่ม

การทำงานอัตโนมัติของเบราว์เซอร์สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว หมดยุคของสคริปต์ Selenium ที่เปราะบางและเวิร์กโฟลว์ที่ไม่เสถียร ด้วยเครื่องมือโอเพนซอร์สอย่าง Browser Use ผนวกกับโฮสต์ LLM ในเครื่องเช่น Ollama และเอ็นจิ้นการให้เหตุผลขั้นสูงอย่าง DeepSeek นักพัฒนาสามารถสร้างเอเจนต์ AI ที่ท่องเว็บ โต้ตอบกับแบบฟอร์ม แยกข้อมูล และทำงานอัตโนมัติได้อย่างน่าเชื่อถือ—ทั้งหมดนี้ขับเคลื่อนด้วยคำสั่งภาษาธรรมชาติ

ในคู่มือนี้ คุณจะได้เรียนรู้วิธีการตั้งค่าสแต็กอันทรงพลังนี้ ทำความเข้าใจบทบาทของแต่ละองค์ประกอบ และเขียนเอเจนต์ AI ที่ใช้ Python ซึ่งสามารถควบคุมเบราว์เซอร์ของคุณโดยทางโปรแกรม ไม่ว่าคุณจะเป็นนักพัฒนา API, วิศวกรแบ็กเอนด์ หรือผู้เชี่ยวชาญ QA วิธีการนี้จะปลดล็อกความเป็นไปได้ใหม่ๆ สำหรับการทำงานอัตโนมัติของเบราว์เซอร์ที่แข็งแกร่ง เป็นส่วนตัว และปรับขนาดได้

ทำไมต้องเลือก Browser Use, Ollama และ DeepSeek สำหรับการทำงานอัตโนมัติของเบราว์เซอร์ด้วย AI?

Browser Use: แพ็กเกจ Python สำหรับจัดการการทำงานของเบราว์เซอร์ (นำทาง, คลิก, แยกข้อมูล)
Ollama: เซิร์ฟเวอร์ LLM ในเครื่อง ที่ช่วยให้การอนุมานโมเดลเป็นส่วนตัวและมีประสิทธิภาพสูงบนฮาร์ดแวร์ของคุณ
DeepSeek: เอ็นจิ้นการให้เหตุผลขั้นสูง (เช่น deepseek/seed หรือ deepseek-r1) ที่แปลคำสั่งระดับสูงให้เป็นขั้นตอนการทำงานของเบราว์เซอร์ที่ดำเนินการได้

เครื่องมือเหล่านี้ร่วมกันช่วยให้คุณสร้างเอเจนต์ AI ที่สามารถ:

ทำงานอัตโนมัติในการนำทางเว็บและการแยกข้อมูล
กรอกแบบฟอร์มและโต้ตอบกับหน้าเว็บแบบไดนามิก
ดำเนินการงานหลายขั้นตอนตามคำสั่งภาษาธรรมชาติ

ข้อกำหนดเบื้องต้น: การตั้งค่าสภาพแวดล้อมการพัฒนาของคุณ

ก่อนที่คุณจะเริ่มต้น โปรดตรวจสอบให้แน่ใจว่าระบบของคุณมีคุณสมบัติตรงตามข้อกำหนดต่อไปนี้:

Python 3.11+ (python --version)
Ollama (ดาวน์โหลดจาก ollama.com)
Node.js (node --version, จำเป็นสำหรับการทำงานอัตโนมัติของเบราว์เซอร์ผ่าน Playwright)
Git (สำหรับการโคลน repository)
ฮาร์ดแวร์: อย่างน้อย 4 คอร์ CPU, RAM 16GB และพื้นที่ว่าง 12GB (สำหรับ DeepSeek) GPU เป็นทางเลือกแต่แนะนำสำหรับโมเดลขนาดใหญ่

เคล็ดลับ: ติดตั้งส่วนประกอบที่ขาดหายไปเพื่อหลีกเลี่ยงปัญหาการตั้งค่าในภายหลัง

การตั้งค่าทีละขั้นตอน: การสร้างโปรเจกต์ AI Browser Automation ของคุณ

1. จัดระเบียบโปรเจกต์ของคุณ

สร้างโฟลเดอร์สำหรับงานของคุณโดยเฉพาะ:

mkdir browser-use-agent
cd browser-use-agent

2. โคลน Repository ของ Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. สร้างและเปิดใช้งาน Python Virtual Environment

สิ่งนี้ช่วยให้ dependencies แยกจากกัน:

python -m venv venv
# เปิดใช้งาน:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

คุณจะเห็น (venv) ในเทอร์มินัลของคุณ ยืนยันการเปิดใช้งาน

4. เปิดโปรเจกต์ของคุณใน VS Code

VS Code มีการผสานรวม Python ที่ยอดเยี่ยม:

code .

ยังไม่มี VS Code? ดาวน์โหลดหรือใช้โปรแกรมแก้ไขที่คุณชื่นชอบ

การติดตั้ง Ollama และ DeepSeek ในเครื่อง

1. ติดตั้ง Ollama

ดาวน์โหลดและติดตั้งจาก ollama.com หลังจากติดตั้งแล้ว ให้ยืนยันว่าทำงานได้:

ollama --version

2. ดาวน์โหลดโมเดล DeepSeek

สำหรับการให้เหตุผลคุณภาพสูง ให้ใช้โมเดล DeepSeek “seed”:

ollama pull deepseek/seed

หมายเหตุ: โมเดลมีขนาดประมาณ 12GB หากพื้นที่เก็บข้อมูลหรือ GPU มีจำกัด ให้ลองใช้ qwen2.5:14b (ประมาณ 4GB)
ตรวจสอบการติดตั้ง:

ollama list

มองหา deepseek-r1 หรือโมเดลที่คุณเลือก

การติดตั้ง Browser Use และ Dependencies ที่จำเป็น

1. ติดตั้ง Browser Use และเครื่องมือสำหรับนักพัฒนา

ใน virtual environment ของคุณ ให้รัน:

pip install . ."[dev]"

2. เพิ่มการผสานรวม LangChain และ Ollama

pip install langchain langchain-ollama

แพ็กเกจเหล่านี้เชื่อมต่อเอเจนต์ของคุณกับ LLM ในเครื่อง

3. ติดตั้ง Playwright สำหรับการทำงานอัตโนมัติของเบราว์เซอร์

playwright install

หากคุณพบปัญหา ตรวจสอบให้แน่ใจว่า Python 3.11+ ทำงานอยู่ หรือรัน:

playwright install-deps

การกำหนดค่าสแต็ก: เชื่อมต่อ Browser Use กับ Ollama & DeepSeek

เริ่มเซิร์ฟเวอร์ Ollama ในเทอร์มินัลแยกต่างหาก:

ollama serve

สิ่งนี้จะเปิดเซิร์ฟเวอร์ LLM ที่ http://localhost:11434 ให้มันทำงานอยู่ตลอดเวลาที่คุณทำงาน

ตัวอย่าง: สร้างเอเจนต์ AI เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google

มาสร้างสคริปต์ Python ที่สั่งให้เอเจนต์ AI ของคุณใช้ Google และดึงข้อมูลสภาพอากาศของบอสตัน

สร้าง test.py ในโฟลเดอร์โปรเจกต์ของคุณและเพิ่ม:

import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())

ตรวจสอบให้แน่ใจว่า VS Code กำลังใช้ Python interpreter ของ virtual environment ของคุณ
- กด Ctrl+P (หรือ Cmd+P บน Mac)
- พิมพ์ > Select Python Interpreter
- เลือก interpreter .venv จากโปรเจกต์ของคุณ
รันสคริปต์:

python test.py

เอเจนต์จะเปิดเบราว์เซอร์ ค้นหา Google สำหรับสภาพอากาศของบอสตัน และแสดงผลลัพธ์

หากคุณเห็นข้อผิดพลาด ให้ยืนยันว่า Ollama กำลังทำงาน (ollama serve) และพอร์ต 11434 เปิดอยู่ สำหรับการแก้ไขปัญหา ให้ตรวจสอบบันทึกใน ~/.ollama/logs

การผสานรวม Apidog: การทดสอบ API ที่น่าเชื่อถือสำหรับเอเจนต์ AI ของเบราว์เซอร์

เมื่อเอเจนต์ AI ของเบราว์เซอร์ของคุณโต้ตอบกับเว็บ API — เช่น การคัดลอกข้อมูลจากปลายทาง (scraping endpoints) หรือการทำงานอัตโนมัติของเวิร์กโฟลว์ที่ขับเคลื่อนด้วย API — การตรวจสอบความถูกต้องของสัญญา API ที่น่าเชื่อถือจึงเป็นสิ่งจำเป็น

Apidog ช่วยได้อย่างไร:

การทดสอบ API แบบอัตโนมัติช่วยให้มั่นใจว่าปลายทางทำงานได้ตามที่คาดไว้
สร้างและจัดการกรณีทดสอบ API สำหรับแบ็กเอนด์ของคุณ
ตรวจสอบความถูกต้องของสัญญา API ในสภาพแวดล้อม staging และ production

Apidog ผสานรวมได้อย่างราบรื่นในไปป์ไลน์การทำงานอัตโนมัติของเบราว์เซอร์ ทำให้คุณสามารถตรวจสอบว่า API ที่เอเจนต์ของคุณใช้มีความแข็งแกร่งและสอดคล้องกัน

เริ่มใช้ Apidog ฟรีเพื่อเสริมความแข็งแกร่งให้กับเวิร์กโฟลว์ AI ของเบราว์เซอร์ของคุณ

การทดสอบสัญญา API ด้วย Apidog

ปุ่ม

เคล็ดลับสำหรับวิศวกรรมพร้อมท์ (Prompt Engineering) ที่มีประสิทธิภาพ

รับการทำงานอัตโนมัติที่แม่นยำยิ่งขึ้นด้วยการสร้างพร้อมท์ที่ชัดเจนและเฉพาะเจาะจง:

ระบุให้ชัดเจน:
"ไปที่ kayak.com, ค้นหาเที่ยวบินจากซูริกไปปักกิ่ง, 25.12.2025–02.02.2026, เรียงตามราคา"
ดีกว่า
"หาเที่ยวบิน"
แบ่งงานที่ซับซ้อนออกเป็นส่วนๆ:
เช่น "เยี่ยมชม LinkedIn, ค้นหางาน ML, บันทึกลิงก์ลงในไฟล์, สมัคร 3 อันดับแรก"
ทำซ้ำและปรับปรุง:
ปรับพร้อมท์ของคุณหากผลลัพธ์ไม่เป็นไปตามที่คาดหวัง การทดสอบใน Open WebUI chat สามารถช่วยได้

การดีบักและแก้ไขปัญหา

ตรวจสอบบันทึก Ollama:
อยู่ที่ ~/.ollama/logs มีประโยชน์สำหรับการวินิจฉัยข้อผิดพลาดของโมเดล
ตรวจสอบเอาต์พุต Playwright:
Playwright บันทึกการทำงานและข้อผิดพลาดทั้งหมดในเทอร์มินัลของคุณ
ประสิทธิภาพ:
หากโมเดล DeepSeek ทำงานช้า ให้พิจารณาโมเดลที่เบากว่า หรือการตั้งค่าการประมวลผลแบบกระจาย
เปลี่ยนงานได้อย่างง่ายดาย:
อัปเดตสตริง task ในสคริปต์ของคุณเพื่อทำงานอัตโนมัติในเวิร์กโฟลว์ที่แตกต่างกัน (เช่น การคัดลอกดาว GitHub, การทำงานอัตโนมัติของขั้นตอนการเข้าสู่ระบบ)

คำถามที่พบบ่อย

คำถามที่ 1. Browser Use คืออะไร?
แพ็กเกจ Python สำหรับการทำงานอัตโนมัติของเบราว์เซอร์ที่ขับเคลื่อนด้วย AI โดยใช้ Playwright GitHub

คำถามที่ 2. ฉันต้องใช้ GPU หรือไม่?
ไม่จำเป็นสำหรับโมเดลขนาดเล็ก เช่น DeepSeek/seed แต่ GPU จะช่วยเร่งความเร็วสำหรับโมเดลขนาดใหญ่

คำถามที่ 3. ฉันสามารถใช้โมเดลอื่นนอกจาก DeepSeek ได้หรือไม่?
ได้ โมเดลใดๆ ที่มีความสามารถในการให้เหตุผลซึ่งรองรับโดย Ollama ก็สามารถใช้งานได้ GitHub

คำถามที่ 4. ข้อมูลของฉันถูกประมวลผลในเครื่องหรือไม่?
ใช่ การรัน Ollama จะเก็บข้อมูลและการอนุมานไว้บนเครื่องของคุณ เว้นแต่จะกำหนดค่าเป็นอย่างอื่น Chrome Web Store

คำถามที่ 5. ฉันสามารถทำงานอัตโนมัติในการเข้าสู่ระบบและงานหลายขั้นตอนได้หรือไม่?
แน่นอน—เพียงแค่กำหนดงานระดับสูงของคุณ และเอเจนต์ AI จะแบ่งงานออกเป็นส่วนย่อยๆ

สรุป

ด้วย Python, Browser Use, Ollama และ DeepSeek คุณสามารถสร้างเอเจนต์ AI ที่แข็งแกร่งซึ่งทำงานอัตโนมัติบนเบราว์เซอร์จริงโดยใช้คำสั่งภาษาธรรมชาติ สแต็กนี้เหมาะสำหรับทีมที่ขับเคลื่อนด้วย API ที่ต้องการการทำงานอัตโนมัติที่น่าเชื่อถือ เป็นส่วนตัว และทรงพลัง—ไม่ว่าจะเป็นสำหรับการประกันคุณภาพ (QA), การผสานรวมแบ็กเอนด์ หรือการทดสอบขั้นสูง

เพิ่ม Apidog ลงในเวิร์กโฟลว์ของคุณเพื่อตรวจสอบความถูกต้องและทดสอบ API ที่เอเจนต์ของคุณโต้ตอบด้วย เพื่อให้มั่นใจว่าการทำงานอัตโนมัติของคุณทำงานได้ตามที่ตั้งใจไว้เสมอ

พร้อมที่จะสร้างเอเจนต์เบราว์เซอร์อัจฉริยะแล้วหรือยัง? เริ่มต้นวันนี้และปรับปรุงการทำงานอัตโนมัติของเว็บของคุณด้วยความมั่นใจ

ปุ่ม