สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek

เรียนรู้วิธีสร้างเอเจนต์ AI อัตโนมัติสำหรับเบราว์เซอร์ที่เชื่อถือได้ด้วย Python, Browser Use, Ollama และ DeepSeek คู่มือฉบับนี้จะครอบคลุมตั้งแต่การตั้งค่า ตัวอย่างโค้ด ไปจนถึงวิธีที่ Apidog ช่วยให้มั่นใจได้ถึงการผสานรวม API ที่เชื่อถือได้สำหรับนักพัฒนาและทีม QA

Ashley Goolam

Ashley Goolam

23 June 2026

สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek

Apidog สำหรับองค์กร

การติดตั้งแบบ On-Premises

SSO & RBAC

รองรับมาตรฐาน SOC 2

สำรวจ Apidog Enterprise
ปุ่ม

การทำงานอัตโนมัติของเบราว์เซอร์สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว หมดยุคของสคริปต์ Selenium ที่เปราะบางและเวิร์กโฟลว์ที่ไม่เสถียร ด้วยเครื่องมือโอเพนซอร์สอย่าง Browser Use ผนวกกับโฮสต์ LLM ในเครื่องเช่น Ollama และเอ็นจิ้นการให้เหตุผลขั้นสูงอย่าง DeepSeek นักพัฒนาสามารถสร้างเอเจนต์ AI ที่ท่องเว็บ โต้ตอบกับแบบฟอร์ม แยกข้อมูล และทำงานอัตโนมัติได้อย่างน่าเชื่อถือ—ทั้งหมดนี้ขับเคลื่อนด้วยคำสั่งภาษาธรรมชาติ

ในคู่มือนี้ คุณจะได้เรียนรู้วิธีการตั้งค่าสแต็กอันทรงพลังนี้ ทำความเข้าใจบทบาทของแต่ละองค์ประกอบ และเขียนเอเจนต์ AI ที่ใช้ Python ซึ่งสามารถควบคุมเบราว์เซอร์ของคุณโดยทางโปรแกรม ไม่ว่าคุณจะเป็นนักพัฒนา API, วิศวกรแบ็กเอนด์ หรือผู้เชี่ยวชาญ QA วิธีการนี้จะปลดล็อกความเป็นไปได้ใหม่ๆ สำหรับการทำงานอัตโนมัติของเบราว์เซอร์ที่แข็งแกร่ง เป็นส่วนตัว และปรับขนาดได้

ทำไมต้องเลือก Browser Use, Ollama และ DeepSeek สำหรับการทำงานอัตโนมัติของเบราว์เซอร์ด้วย AI?

เครื่องมือเหล่านี้ร่วมกันช่วยให้คุณสร้างเอเจนต์ AI ที่สามารถ:

ข้อกำหนดเบื้องต้น: การตั้งค่าสภาพแวดล้อมการพัฒนาของคุณ

ก่อนที่คุณจะเริ่มต้น โปรดตรวจสอบให้แน่ใจว่าระบบของคุณมีคุณสมบัติตรงตามข้อกำหนดต่อไปนี้:

เคล็ดลับ: ติดตั้งส่วนประกอบที่ขาดหายไปเพื่อหลีกเลี่ยงปัญหาการตั้งค่าในภายหลัง

การตั้งค่าทีละขั้นตอน: การสร้างโปรเจกต์ AI Browser Automation ของคุณ

1. จัดระเบียบโปรเจกต์ของคุณ

สร้างโฟลเดอร์สำหรับงานของคุณโดยเฉพาะ:

mkdir browser-use-agent
cd browser-use-agent

2. โคลน Repository ของ Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. สร้างและเปิดใช้งาน Python Virtual Environment

สิ่งนี้ช่วยให้ dependencies แยกจากกัน:

python -m venv venv
# เปิดใช้งาน:
# Mac/Linux:
source venv/bin/activate
# Windows:
venv\Scripts\activate

คุณจะเห็น (venv) ในเทอร์มินัลของคุณ ยืนยันการเปิดใช้งาน

4. เปิดโปรเจกต์ของคุณใน VS Code

VS Code มีการผสานรวม Python ที่ยอดเยี่ยม:

code .

ยังไม่มี VS Code? ดาวน์โหลดหรือใช้โปรแกรมแก้ไขที่คุณชื่นชอบ

การติดตั้ง Ollama และ DeepSeek ในเครื่อง

1. ติดตั้ง Ollama

ดาวน์โหลดและติดตั้งจาก ollama.com หลังจากติดตั้งแล้ว ให้ยืนยันว่าทำงานได้:

ollama --version
ดาวน์โหลด ollama

2. ดาวน์โหลดโมเดล DeepSeek

สำหรับการให้เหตุผลคุณภาพสูง ให้ใช้โมเดล DeepSeek “seed”:

ollama pull deepseek/seed
ollama list

มองหา deepseek-r1 หรือโมเดลที่คุณเลือก

ดึงโมเดล deepseek

การติดตั้ง Browser Use และ Dependencies ที่จำเป็น

1. ติดตั้ง Browser Use และเครื่องมือสำหรับนักพัฒนา

ใน virtual environment ของคุณ ให้รัน:

pip install . ."[dev]"

2. เพิ่มการผสานรวม LangChain และ Ollama

pip install langchain langchain-ollama

แพ็กเกจเหล่านี้เชื่อมต่อเอเจนต์ของคุณกับ LLM ในเครื่อง

3. ติดตั้ง Playwright สำหรับการทำงานอัตโนมัติของเบราว์เซอร์

playwright install

หากคุณพบปัญหา ตรวจสอบให้แน่ใจว่า Python 3.11+ ทำงานอยู่ หรือรัน:

playwright install-deps

การกำหนดค่าสแต็ก: เชื่อมต่อ Browser Use กับ Ollama & DeepSeek

เริ่มเซิร์ฟเวอร์ Ollama ในเทอร์มินัลแยกต่างหาก:

ollama serve

สิ่งนี้จะเปิดเซิร์ฟเวอร์ LLM ที่ http://localhost:11434 ให้มันทำงานอยู่ตลอดเวลาที่คุณทำงาน

ตัวอย่าง: สร้างเอเจนต์ AI เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google

มาสร้างสคริปต์ Python ที่สั่งให้เอเจนต์ AI ของคุณใช้ Google และดึงข้อมูลสภาพอากาศของบอสตัน

  1. สร้าง test.py ในโฟลเดอร์โปรเจกต์ของคุณและเพิ่ม:
import os
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())
  1. ตรวจสอบให้แน่ใจว่า VS Code กำลังใช้ Python interpreter ของ virtual environment ของคุณ
    • กด Ctrl+P (หรือ Cmd+P บน Mac)
    • พิมพ์ > Select Python Interpreter
    • เลือก interpreter .venv จากโปรเจกต์ของคุณ
  2. รันสคริปต์:
python test.py

เอเจนต์จะเปิดเบราว์เซอร์ ค้นหา Google สำหรับสภาพอากาศของบอสตัน และแสดงผลลัพธ์

การค้นหาด้วย browser-use

หากคุณเห็นข้อผิดพลาด ให้ยืนยันว่า Ollama กำลังทำงาน (ollama serve) และพอร์ต 11434 เปิดอยู่ สำหรับการแก้ไขปัญหา ให้ตรวจสอบบันทึกใน ~/.ollama/logs

ผลการค้นหาด้วย browser-use

การผสานรวม Apidog: การทดสอบ API ที่น่าเชื่อถือสำหรับเอเจนต์ AI ของเบราว์เซอร์

เมื่อเอเจนต์ AI ของเบราว์เซอร์ของคุณโต้ตอบกับเว็บ API — เช่น การคัดลอกข้อมูลจากปลายทาง (scraping endpoints) หรือการทำงานอัตโนมัติของเวิร์กโฟลว์ที่ขับเคลื่อนด้วย API — การตรวจสอบความถูกต้องของสัญญา API ที่น่าเชื่อถือจึงเป็นสิ่งจำเป็น

Apidog ช่วยได้อย่างไร:

Apidog ผสานรวมได้อย่างราบรื่นในไปป์ไลน์การทำงานอัตโนมัติของเบราว์เซอร์ ทำให้คุณสามารถตรวจสอบว่า API ที่เอเจนต์ของคุณใช้มีความแข็งแกร่งและสอดคล้องกัน

เริ่มใช้ Apidog ฟรีเพื่อเสริมความแข็งแกร่งให้กับเวิร์กโฟลว์ AI ของเบราว์เซอร์ของคุณ

การทดสอบสัญญา API ด้วย Apidog

การทดสอบสัญญา API ด้วย Apidog

ปุ่ม

เคล็ดลับสำหรับวิศวกรรมพร้อมท์ (Prompt Engineering) ที่มีประสิทธิภาพ

รับการทำงานอัตโนมัติที่แม่นยำยิ่งขึ้นด้วยการสร้างพร้อมท์ที่ชัดเจนและเฉพาะเจาะจง:

การดีบักและแก้ไขปัญหา

คำถามที่พบบ่อย

คำถามที่ 1. Browser Use คืออะไร?
แพ็กเกจ Python สำหรับการทำงานอัตโนมัติของเบราว์เซอร์ที่ขับเคลื่อนด้วย AI โดยใช้ Playwright GitHub

คำถามที่ 2. ฉันต้องใช้ GPU หรือไม่?
ไม่จำเป็นสำหรับโมเดลขนาดเล็ก เช่น DeepSeek/seed แต่ GPU จะช่วยเร่งความเร็วสำหรับโมเดลขนาดใหญ่

คำถามที่ 3. ฉันสามารถใช้โมเดลอื่นนอกจาก DeepSeek ได้หรือไม่?
ได้ โมเดลใดๆ ที่มีความสามารถในการให้เหตุผลซึ่งรองรับโดย Ollama ก็สามารถใช้งานได้ GitHub

คำถามที่ 4. ข้อมูลของฉันถูกประมวลผลในเครื่องหรือไม่?
ใช่ การรัน Ollama จะเก็บข้อมูลและการอนุมานไว้บนเครื่องของคุณ เว้นแต่จะกำหนดค่าเป็นอย่างอื่น Chrome Web Store

คำถามที่ 5. ฉันสามารถทำงานอัตโนมัติในการเข้าสู่ระบบและงานหลายขั้นตอนได้หรือไม่?
แน่นอน—เพียงแค่กำหนดงานระดับสูงของคุณ และเอเจนต์ AI จะแบ่งงานออกเป็นส่วนย่อยๆ

สรุป

ด้วย Python, Browser Use, Ollama และ DeepSeek คุณสามารถสร้างเอเจนต์ AI ที่แข็งแกร่งซึ่งทำงานอัตโนมัติบนเบราว์เซอร์จริงโดยใช้คำสั่งภาษาธรรมชาติ สแต็กนี้เหมาะสำหรับทีมที่ขับเคลื่อนด้วย API ที่ต้องการการทำงานอัตโนมัติที่น่าเชื่อถือ เป็นส่วนตัว และทรงพลัง—ไม่ว่าจะเป็นสำหรับการประกันคุณภาพ (QA), การผสานรวมแบ็กเอนด์ หรือการทดสอบขั้นสูง

เพิ่ม Apidog ลงในเวิร์กโฟลว์ของคุณเพื่อตรวจสอบความถูกต้องและทดสอบ API ที่เอเจนต์ของคุณโต้ตอบด้วย เพื่อให้มั่นใจว่าการทำงานอัตโนมัติของคุณทำงานได้ตามที่ตั้งใจไว้เสมอ

พร้อมที่จะสร้างเอเจนต์เบราว์เซอร์อัจฉริยะแล้วหรือยัง? เริ่มต้นวันนี้และปรับปรุงการทำงานอัตโนมัติของเว็บของคุณด้วยความมั่นใจ

ปุ่ม

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API