```html
บทนำสู่ Local LLMs ด้วย Ollama
ภูมิทัศน์ AI กำลังพัฒนาอย่างรวดเร็ว แต่แนวโน้มหนึ่งที่ชัดเจนคือ: นักพัฒนาต้องการการควบคุม ความเป็นส่วนตัว และความยืดหยุ่นที่มากขึ้นในการใช้งาน AI ของตน Ollama มอบสิ่งนั้นอย่างแม่นยำ โดยนำเสนอวิธีที่คล่องตัวในการรัน large language models ทรงพลังในเครื่องของคุณโดยตรง โดยไม่มีข้อจำกัดของ API บนคลาวด์
ทำไมต้องรันโมเดลในเครื่อง? มีสามเหตุผลที่น่าสนใจ: ความเป็นส่วนตัวทั้งหมดสำหรับข้อมูลที่ละเอียดอ่อน ปัญหา latency เป็นศูนย์จากการเรียก API และอิสระจากโควต้าการใช้งานหรือค่าใช้จ่ายที่ไม่คาดคิด เมื่อคุณกำลังสร้างแอปพลิเคชันที่ต้องการประสิทธิภาพ AI ที่สม่ำเสมอโดยไม่ต้องส่งข้อมูลผู้ใช้ไปยังบุคคลที่สาม การอนุมานในเครื่องจึงไม่เพียงแต่น่าสนใจเท่านั้น แต่ยังจำเป็นอีกด้วย
DeepSeek-R1 แสดงถึงความก้าวหน้าที่สำคัญในโมเดล AI แบบโอเพนซอร์ส ซึ่งเทียบเท่ากับความสามารถของข้อเสนอทางการค้าจำนวนมาก ด้วยความสามารถในการให้เหตุผลที่แข็งแกร่ง ความสามารถในการสร้างโค้ด และความสามารถในการประมวลผลอินพุตแบบมัลติโมดัล จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับนักพัฒนาที่ต้องการผลักดันขอบเขตของสิ่งที่เป็นไปได้ด้วย AI ในเครื่อง
LLMs ทรงพลังสมควรได้รับการทดสอบ API ที่ทรงพลัง
เมื่อสร้างแอปพลิเคชันที่ผสานรวมกับ LLMs ในเครื่อง เช่น DeepSeek ผ่าน Ollama คุณจะต้องเผชิญกับความท้าทายในการแก้ไขข้อบกพร่องของการตอบสนอง AI แบบสตรีมมิ่งอย่างหลีกเลี่ยงไม่ได้ นั่นคือที่ที่ Apidog เปล่งประกายอย่างแท้จริง

ซึ่งแตกต่างจากเครื่องมือ API ทั่วไป การแก้ไขข้อบกพร่อง SSE เฉพาะของ Apidog จะแสดงการสร้างโทเค็นต่อโทเค็นแบบเรียลไทม์ ซึ่งช่วยให้คุณมองเห็นวิธีการทำงานของโมเดลของคุณได้อย่างที่ไม่เคยมีมาก่อน ไม่ว่าคุณกำลังสร้างแชทบอท ตัวสร้างเนื้อหา หรือการค้นหาที่ขับเคลื่อนด้วย AI Apidog ทำให้การทำงานกับจุดสิ้นสุด API ของ Ollama นั้นง่ายอย่างน่าทึ่ง ฉันพบว่าการผสมผสานนี้เป็นการเปลี่ยนแปลงเกมสำหรับการพัฒนา LLM ในเครื่อง
เริ่มต้นใช้งาน Ollama
การติดตั้ง
การติดตั้ง Ollama นั้นง่ายอย่างน่าทึ่งในระบบปฏิบัติการหลัก:
curl -fsSL https://ollama.com/install.sh | sh
หลังจากการติดตั้ง ให้เริ่มเซิร์ฟเวอร์ Ollama ด้วย:
ollama serve
คำสั่งนี้จะเปิดตัว Ollama เป็นบริการที่รับฟังคำขอที่ localhost:11434 ให้หน้าต่างเทอร์มินัลนี้ทำงานต่อไป หรือตั้งค่า Ollama เป็นบริการเบื้องหลังหากคุณวางแผนที่จะใช้งานอย่างต่อเนื่อง
ข้อกำหนดของระบบ
เพื่อประสิทธิภาพสูงสุดด้วย DeepSeek-R1:
- ขั้นต่ำ: RAM 8GB, CPU รุ่นใหม่ที่มี 4+ คอร์
- แนะนำ: RAM 16GB+, NVIDIA GPU พร้อม VRAM 8GB+
- พื้นที่เก็บข้อมูล: พื้นที่ว่างอย่างน้อย 10GB สำหรับโมเดลพื้นฐาน
คำสั่งพื้นฐาน
ตรวจสอบเวอร์ชันที่คุณติดตั้ง:
ollama --version
รับความช่วยเหลือเกี่ยวกับคำสั่งที่มี:
ollama help
การจัดการโมเดล
การค้นหาและดึงโมเดล
ก่อนที่จะเจาะลึกการจัดการโมเดล มาดูกันว่ามีอะไรบ้าง:
ollama list
คำสั่งนี้แสดงโมเดลที่ติดตั้งในเครื่องทั้งหมด เมื่อคุณพร้อมที่จะดาวน์โหลด DeepSeek-R1:
ollama pull deepseek-r1
Ollama มีขนาดโมเดลที่แตกต่างกันเพื่อให้ตรงกับความสามารถของฮาร์ดแวร์ของคุณ สำหรับเครื่องที่มีทรัพยากรจำกัด ลอง:
ollama pull deepseek-r1:7b
สำหรับการตั้งค่าที่มีประสิทธิภาพมากขึ้นที่ต้องการความสามารถที่เพิ่มขึ้น:
ollama pull deepseek-r1:8b
พบกับข้อจำกัดด้านเนื้อหาหรือไม่? นักพัฒนาบางคนชอบโมเดลที่ถูกกรองน้อยกว่า:
ollama pull open-r1
การรันโมเดลอย่างมีประสิทธิภาพ
พลังที่แท้จริงของ Ollama จะปรากฏเมื่อคุณเริ่มโต้ตอบกับโมเดล เปิดเซสชันแชทแบบโต้ตอบ:
ollama run deepseek-r1
สิ่งนี้จะเปิดการสนทนาแบบเรียลไทม์ที่คุณสามารถสำรวจความสามารถของ DeepSeek-R1 ได้ พิมพ์คำค้นหาของคุณแล้วกด Enter หรือใช้ /help
เพื่อดูคำสั่งพิเศษที่มีให้ในระหว่างเซสชัน
สำหรับการค้นหาแบบครั้งเดียวอย่างรวดเร็วโดยไม่ต้องเข้าสู่โหมดโต้ตอบ:
ollama run deepseek-r1 "Explain quantum computing in simple terms"
ประมวลผลข้อความโดยตรงจากไฟล์ ซึ่งมีประโยชน์อย่างเหลือเชื่อสำหรับการสรุป การวิเคราะห์ หรือการแปลงงาน:
ollama run deepseek-r1 "Summarize the content of this file in 50 words." < input.txt
การปรับแต่งพารามิเตอร์โมเดล
พฤติกรรมของ DeepSeek-R1 สามารถเปลี่ยนแปลงได้อย่างมากผ่านการปรับพารามิเตอร์ สำหรับเอาต์พุตที่สร้างสรรค์และหลากหลาย:
ollama run deepseek-r1 --temperature 0.7 --top-p 0.9
สำหรับการตอบสนองตามข้อเท็จจริงและเป็นตัวกำหนดที่เหมาะสมกว่าสำหรับการเขียนโค้ดหรือคำอธิบายทางเทคนิค:
ollama run deepseek-r1 --temperature 0.1 --top-p 1.0
คู่มือพารามิเตอร์:
- Temperature (0.0-1.0): ค่าที่ต่ำกว่าทำให้การตอบสนองเน้นและเป็นตัวกำหนดมากขึ้น ค่าที่สูงกว่าจะแนะนำความคิดสร้างสรรค์และความหลากหลาย
- Top-p (0.0-1.0): ควบคุมความหลากหลายโดยพิจารณาเฉพาะโทเค็นที่มีแนวโน้มมากที่สุดซึ่งความน่าจะเป็นสะสมเกินเกณฑ์นี้
- Context window: กำหนดว่าโมเดลจำการสนทนาก่อนหน้านี้ได้มากเพียงใด
การใช้งานขั้นสูงและการผสานรวม API
Modelfiles ที่กำหนดเองสำหรับแอปพลิเคชันเฉพาะทาง
ความยืดหยุ่นที่แท้จริงของ Ollama เกิดขึ้นเมื่อคุณสร้าง Modelfiles ที่กำหนดเองเพื่อปรับ DeepSeek-R1 สำหรับงานเฉพาะ:
FROM deepseek-r1:8b
PARAMETER temperature 0.3
PARAMETER top_p 0.95
SYSTEM You are a senior software developer specializing in Python. Provide clean, efficient code with helpful comments.
บันทึกสิ่งนี้เป็น Modelfile
และสร้างโมเดลที่คุณกำหนดเอง:
ollama create python-expert -f Modelfile
รันเหมือนโมเดลอื่นๆ:
ollama run python-expert "Write a function to find prime numbers in a given range"
REST API สำหรับการผสานรวมแอปพลิเคชัน
ในขณะที่การใช้งานบรรทัดคำสั่งสะดวกสำหรับการทดลอง แอปพลิเคชันในโลกแห่งความเป็นจริงต้องการการเข้าถึง API Ollama มี REST API ง่ายๆ บนพอร์ต 11434:
# Basic completion request
curl -X POST http://localhost:11434/api/generate -d '{
"model": "deepseek-r1",
"prompt": "Write a recursive function to calculate Fibonacci numbers",
"stream": false
}'
สำหรับการตอบสนองแบบสตรีมมิ่ง (เหมาะสำหรับอินเทอร์เฟซแชท):
curl -X POST http://localhost:11434/api/generate -d '{
"model": "deepseek-r1",
"prompt": "Explain how neural networks learn in simple terms",
"stream": true
}'
การทดสอบจุดสิ้นสุด API ด้วย Apidog
เมื่อสร้างแอปพลิเคชันที่ผสานรวมกับ API ของ Ollama การทดสอบและการแสดงภาพการตอบสนองแบบสตรีมมิ่งจึงมีความสำคัญ Apidog เก่งในการจัดการ Server-Sent Events (SSE) เช่นที่สร้างโดย API การสตรีมมิ่งของ Ollama:
- สร้างโปรเจกต์ HTTP ใหม่ใน Apidog
- เพิ่มจุดสิ้นสุดด้วย URL
http://localhost:11434/api/generate
- ตั้งค่าคำขอ POST พร้อมเนื้อหา JSON:
{
"model": "deepseek-r1",
"prompt": "Write a story about a programmer who discovers an AI",
"stream": true
}
4. ส่งคำขอและดูในขณะที่ตัวแก้ไขข้อบกพร่อง SSE ของ Apidog แสดงภาพกระบวนการสร้างโทเค็นต่อโทเค็นแบบเรียลไทม์
การแสดงภาพนี้ช่วยระบุปัญหาเกี่ยวกับการจัดรูปแบบการตอบสนอง การสร้างโทเค็น หรือพฤติกรรมโมเดลที่ไม่คาดคิด ซึ่งอาจแก้ไขข้อบกพร่องได้ยาก
แอปพลิเคชันในโลกแห่งความเป็นจริงด้วย DeepSeek-R1
DeepSeek-R1 เก่งในสถานการณ์การใช้งานจริงต่างๆ:
การสร้างเนื้อหา
สร้างโพสต์บล็อกคุณภาพระดับมืออาชีพ:
ollama run deepseek-r1 "Write a 500-word blog post about sustainable technology"
การดึงข้อมูล
ประมวลผลและวิเคราะห์เอกสารเพื่อดึงข้อมูลสำคัญ:
ollama run deepseek-r1 "Extract the key points from this research paper: " < paper.txt
การวิเคราะห์รูปภาพ
ประมวลผลรูปภาพเพื่ออธิบายเนื้อหาหรือการวิเคราะห์:
ollama run deepseek-r1 "Analyze and describe the content of this image" < image.jpg
การสร้างและอธิบายโค้ด
สร้างโซลูชันโค้ดสำหรับปัญหาเฉพาะ:
ollama run deepseek-r1 "Write a Python function that implements a binary search algorithm with detailed comments"
หรืออธิบายโค้ดที่ซับซ้อน:
ollama run deepseek-r1 "Explain what this code does: " < complex_algorithm.py
การแก้ไขปัญหาทั่วไป
ปัญหาหน่วยความจำและประสิทธิภาพ
หากคุณพบข้อผิดพลาดหน่วยความจำไม่เพียงพอ:
- ลองใช้โมเดลรุ่นที่เล็กลง (7B แทน 8B)
- ลดขนาดหน้าต่างบริบทด้วย
--ctx N
(เช่น--ctx 2048
) - ปิดแอปพลิเคชันอื่นๆ ที่ใช้หน่วยความจำมาก
- สำหรับผู้ใช้ CUDA ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งไดรเวอร์ NVIDIA ล่าสุดแล้ว
ปัญหาการเชื่อมต่อ API
หากคุณไม่สามารถเชื่อมต่อกับ API ได้:
- ตรวจสอบให้แน่ใจว่า Ollama กำลังทำงานด้วย
ollama serve
- ตรวจสอบว่าพอร์ตเริ่มต้นถูกบล็อกหรือใช้งานอยู่ (
lsof -i :11434
) - ตรวจสอบการตั้งค่าไฟร์วอลล์หากเชื่อมต่อจากเครื่องอื่น
บทสรุป
Ollama พร้อม DeepSeek-R1 แสดงถึงก้าวสำคัญในการทำให้ AI เป็นประชาธิปไตยโดยการนำโมเดลภาษาที่ทรงพลังมาไว้ในมือของนักพัฒนาโดยตรง การผสมผสานนี้มอบความเป็นส่วนตัว การควบคุม และความสามารถที่น่าประทับใจ ทั้งหมดนี้โดยไม่ต้องพึ่งพาบริการภายนอก
เมื่อคุณสร้างแอปพลิเคชันด้วย LLM ในเครื่องเหล่านี้ โปรดจำไว้ว่าการทดสอบการผสานรวม API ของคุณอย่างเหมาะสมมีความสำคัญอย่างยิ่งต่อประสิทธิภาพที่เชื่อถือได้ เครื่องมือต่างๆ เช่น Apidog สามารถช่วยแสดงภาพและแก้ไขข้อบกพร่องของการตอบสนองแบบสตรีมมิ่งจาก Ollama ได้ โดยเฉพาะอย่างยิ่งเมื่อคุณกำลังสร้างแอปพลิเคชันที่ซับซ้อนซึ่งจำเป็นต้องประมวลผลเอาต์พุตของโมเดลแบบเรียลไทม์
ไม่ว่าคุณจะสร้างเนื้อหา สร้างอินเทอร์เฟซการสนทนา หรือสร้างผู้ช่วยโค้ด คู่หูที่ทรงพลังนี้มอบรากฐานที่คุณต้องการสำหรับการผสานรวม AI ที่ซับซ้อนในฮาร์ดแวร์ของคุณเอง
```