แผ่นโกง Ollama - วิธีรัน LLM ในเครื่องด้วย Ollama

```html

บทนำสู่ Local LLMs ด้วย Ollama

ภูมิทัศน์ AI กำลังพัฒนาอย่างรวดเร็ว แต่แนวโน้มหนึ่งที่ชัดเจนคือ: นักพัฒนาต้องการการควบคุม ความเป็นส่วนตัว และความยืดหยุ่นที่มากขึ้นในการใช้งาน AI ของตน Ollama มอบสิ่งนั้นอย่างแม่นยำ โดยนำเสนอวิธีที่คล่องตัวในการรัน large language models ทรงพลังในเครื่องของคุณโดยตรง โดยไม่มีข้อจำกัดของ API บนคลาวด์

ทำไมต้องรันโมเดลในเครื่อง? มีสามเหตุผลที่น่าสนใจ: ความเป็นส่วนตัวทั้งหมดสำหรับข้อมูลที่ละเอียดอ่อน ปัญหา latency เป็นศูนย์จากการเรียก API และอิสระจากโควต้าการใช้งานหรือค่าใช้จ่ายที่ไม่คาดคิด เมื่อคุณกำลังสร้างแอปพลิเคชันที่ต้องการประสิทธิภาพ AI ที่สม่ำเสมอโดยไม่ต้องส่งข้อมูลผู้ใช้ไปยังบุคคลที่สาม การอนุมานในเครื่องจึงไม่เพียงแต่น่าสนใจเท่านั้น แต่ยังจำเป็นอีกด้วย

DeepSeek-R1 แสดงถึงความก้าวหน้าที่สำคัญในโมเดล AI แบบโอเพนซอร์ส ซึ่งเทียบเท่ากับความสามารถของข้อเสนอทางการค้าจำนวนมาก ด้วยความสามารถในการให้เหตุผลที่แข็งแกร่ง ความสามารถในการสร้างโค้ด และความสามารถในการประมวลผลอินพุตแบบมัลติโมดัล จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับนักพัฒนาที่ต้องการผลักดันขอบเขตของสิ่งที่เป็นไปได้ด้วย AI ในเครื่อง

LLMs ทรงพลังสมควรได้รับการทดสอบ API ที่ทรงพลัง

เมื่อสร้างแอปพลิเคชันที่ผสานรวมกับ LLMs ในเครื่อง เช่น DeepSeek ผ่าน Ollama คุณจะต้องเผชิญกับความท้าทายในการแก้ไขข้อบกพร่องของการตอบสนอง AI แบบสตรีมมิ่งอย่างหลีกเลี่ยงไม่ได้ นั่นคือที่ที่ Apidog เปล่งประกายอย่างแท้จริง

ซึ่งแตกต่างจากเครื่องมือ API ทั่วไป การแก้ไขข้อบกพร่อง SSE เฉพาะของ Apidog จะแสดงการสร้างโทเค็นต่อโทเค็นแบบเรียลไทม์ ซึ่งช่วยให้คุณมองเห็นวิธีการทำงานของโมเดลของคุณได้อย่างที่ไม่เคยมีมาก่อน ไม่ว่าคุณกำลังสร้างแชทบอท ตัวสร้างเนื้อหา หรือการค้นหาที่ขับเคลื่อนด้วย AI Apidog ทำให้การทำงานกับจุดสิ้นสุด API ของ Ollama นั้นง่ายอย่างน่าทึ่ง ฉันพบว่าการผสมผสานนี้เป็นการเปลี่ยนแปลงเกมสำหรับการพัฒนา LLM ในเครื่อง

button

เริ่มต้นใช้งาน Ollama

การติดตั้ง

การติดตั้ง Ollama นั้นง่ายอย่างน่าทึ่งในระบบปฏิบัติการหลัก:

curl -fsSL https://ollama.com/install.sh | sh

หลังจากการติดตั้ง ให้เริ่มเซิร์ฟเวอร์ Ollama ด้วย:

ollama serve

คำสั่งนี้จะเปิดตัว Ollama เป็นบริการที่รับฟังคำขอที่ localhost:11434 ให้หน้าต่างเทอร์มินัลนี้ทำงานต่อไป หรือตั้งค่า Ollama เป็นบริการเบื้องหลังหากคุณวางแผนที่จะใช้งานอย่างต่อเนื่อง

ข้อกำหนดของระบบ

เพื่อประสิทธิภาพสูงสุดด้วย DeepSeek-R1:

ขั้นต่ำ: RAM 8GB, CPU รุ่นใหม่ที่มี 4+ คอร์
แนะนำ: RAM 16GB+, NVIDIA GPU พร้อม VRAM 8GB+
พื้นที่เก็บข้อมูล: พื้นที่ว่างอย่างน้อย 10GB สำหรับโมเดลพื้นฐาน

คำสั่งพื้นฐาน

ตรวจสอบเวอร์ชันที่คุณติดตั้ง:

ollama --version

รับความช่วยเหลือเกี่ยวกับคำสั่งที่มี:

ollama help

การจัดการโมเดล

การค้นหาและดึงโมเดล

ก่อนที่จะเจาะลึกการจัดการโมเดล มาดูกันว่ามีอะไรบ้าง:

ollama list

คำสั่งนี้แสดงโมเดลที่ติดตั้งในเครื่องทั้งหมด เมื่อคุณพร้อมที่จะดาวน์โหลด DeepSeek-R1:

ollama pull deepseek-r1

Ollama มีขนาดโมเดลที่แตกต่างกันเพื่อให้ตรงกับความสามารถของฮาร์ดแวร์ของคุณ สำหรับเครื่องที่มีทรัพยากรจำกัด ลอง:

ollama pull deepseek-r1:7b

สำหรับการตั้งค่าที่มีประสิทธิภาพมากขึ้นที่ต้องการความสามารถที่เพิ่มขึ้น:

ollama pull deepseek-r1:8b

พบกับข้อจำกัดด้านเนื้อหาหรือไม่? นักพัฒนาบางคนชอบโมเดลที่ถูกกรองน้อยกว่า:

ollama pull open-r1

การรันโมเดลอย่างมีประสิทธิภาพ

พลังที่แท้จริงของ Ollama จะปรากฏเมื่อคุณเริ่มโต้ตอบกับโมเดล เปิดเซสชันแชทแบบโต้ตอบ:

ollama run deepseek-r1

สิ่งนี้จะเปิดการสนทนาแบบเรียลไทม์ที่คุณสามารถสำรวจความสามารถของ DeepSeek-R1 ได้ พิมพ์คำค้นหาของคุณแล้วกด Enter หรือใช้ /help เพื่อดูคำสั่งพิเศษที่มีให้ในระหว่างเซสชัน

สำหรับการค้นหาแบบครั้งเดียวอย่างรวดเร็วโดยไม่ต้องเข้าสู่โหมดโต้ตอบ:

ollama run deepseek-r1 "Explain quantum computing in simple terms"

ประมวลผลข้อความโดยตรงจากไฟล์ ซึ่งมีประโยชน์อย่างเหลือเชื่อสำหรับการสรุป การวิเคราะห์ หรือการแปลงงาน:

ollama run deepseek-r1 "Summarize the content of this file in 50 words." < input.txt

การปรับแต่งพารามิเตอร์โมเดล

พฤติกรรมของ DeepSeek-R1 สามารถเปลี่ยนแปลงได้อย่างมากผ่านการปรับพารามิเตอร์ สำหรับเอาต์พุตที่สร้างสรรค์และหลากหลาย:

ollama run deepseek-r1 --temperature 0.7 --top-p 0.9

สำหรับการตอบสนองตามข้อเท็จจริงและเป็นตัวกำหนดที่เหมาะสมกว่าสำหรับการเขียนโค้ดหรือคำอธิบายทางเทคนิค:

ollama run deepseek-r1 --temperature 0.1 --top-p 1.0

คู่มือพารามิเตอร์:

Temperature (0.0-1.0): ค่าที่ต่ำกว่าทำให้การตอบสนองเน้นและเป็นตัวกำหนดมากขึ้น ค่าที่สูงกว่าจะแนะนำความคิดสร้างสรรค์และความหลากหลาย
Top-p (0.0-1.0): ควบคุมความหลากหลายโดยพิจารณาเฉพาะโทเค็นที่มีแนวโน้มมากที่สุดซึ่งความน่าจะเป็นสะสมเกินเกณฑ์นี้
Context window: กำหนดว่าโมเดลจำการสนทนาก่อนหน้านี้ได้มากเพียงใด

การใช้งานขั้นสูงและการผสานรวม API

Modelfiles ที่กำหนดเองสำหรับแอปพลิเคชันเฉพาะทาง

ความยืดหยุ่นที่แท้จริงของ Ollama เกิดขึ้นเมื่อคุณสร้าง Modelfiles ที่กำหนดเองเพื่อปรับ DeepSeek-R1 สำหรับงานเฉพาะ:

FROM deepseek-r1:8b
PARAMETER temperature 0.3
PARAMETER top_p 0.95
SYSTEM You are a senior software developer specializing in Python. Provide clean, efficient code with helpful comments.

บันทึกสิ่งนี้เป็น Modelfile และสร้างโมเดลที่คุณกำหนดเอง:

ollama create python-expert -f Modelfile

รันเหมือนโมเดลอื่นๆ:

ollama run python-expert "Write a function to find prime numbers in a given range"

REST API สำหรับการผสานรวมแอปพลิเคชัน

ในขณะที่การใช้งานบรรทัดคำสั่งสะดวกสำหรับการทดลอง แอปพลิเคชันในโลกแห่งความเป็นจริงต้องการการเข้าถึง API Ollama มี REST API ง่ายๆ บนพอร์ต 11434:

# Basic completion request
curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Write a recursive function to calculate Fibonacci numbers",
  "stream": false
}'

สำหรับการตอบสนองแบบสตรีมมิ่ง (เหมาะสำหรับอินเทอร์เฟซแชท):

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Explain how neural networks learn in simple terms",
  "stream": true
}'

การทดสอบจุดสิ้นสุด API ด้วย Apidog

เมื่อสร้างแอปพลิเคชันที่ผสานรวมกับ API ของ Ollama การทดสอบและการแสดงภาพการตอบสนองแบบสตรีมมิ่งจึงมีความสำคัญ Apidog เก่งในการจัดการ Server-Sent Events (SSE) เช่นที่สร้างโดย API การสตรีมมิ่งของ Ollama:

สร้างโปรเจกต์ HTTP ใหม่ใน Apidog
เพิ่มจุดสิ้นสุดด้วย URL http://localhost:11434/api/generate
ตั้งค่าคำขอ POST พร้อมเนื้อหา JSON:

{
  "model": "deepseek-r1",
  "prompt": "Write a story about a programmer who discovers an AI",
  "stream": true
}

4. ส่งคำขอและดูในขณะที่ตัวแก้ไขข้อบกพร่อง SSE ของ Apidog แสดงภาพกระบวนการสร้างโทเค็นต่อโทเค็นแบบเรียลไทม์

การแสดงภาพนี้ช่วยระบุปัญหาเกี่ยวกับการจัดรูปแบบการตอบสนอง การสร้างโทเค็น หรือพฤติกรรมโมเดลที่ไม่คาดคิด ซึ่งอาจแก้ไขข้อบกพร่องได้ยาก

แอปพลิเคชันในโลกแห่งความเป็นจริงด้วย DeepSeek-R1

DeepSeek-R1 เก่งในสถานการณ์การใช้งานจริงต่างๆ:

การสร้างเนื้อหา

สร้างโพสต์บล็อกคุณภาพระดับมืออาชีพ:

ollama run deepseek-r1 "Write a 500-word blog post about sustainable technology"

การดึงข้อมูล

ประมวลผลและวิเคราะห์เอกสารเพื่อดึงข้อมูลสำคัญ:

ollama run deepseek-r1 "Extract the key points from this research paper: " < paper.txt

การวิเคราะห์รูปภาพ

ประมวลผลรูปภาพเพื่ออธิบายเนื้อหาหรือการวิเคราะห์:

ollama run deepseek-r1 "Analyze and describe the content of this image" < image.jpg

การสร้างและอธิบายโค้ด

สร้างโซลูชันโค้ดสำหรับปัญหาเฉพาะ:

ollama run deepseek-r1 "Write a Python function that implements a binary search algorithm with detailed comments"

หรืออธิบายโค้ดที่ซับซ้อน:

ollama run deepseek-r1 "Explain what this code does: " < complex_algorithm.py

การแก้ไขปัญหาทั่วไป

ปัญหาหน่วยความจำและประสิทธิภาพ

หากคุณพบข้อผิดพลาดหน่วยความจำไม่เพียงพอ:

ลองใช้โมเดลรุ่นที่เล็กลง (7B แทน 8B)
ลดขนาดหน้าต่างบริบทด้วย --ctx N (เช่น --ctx 2048)
ปิดแอปพลิเคชันอื่นๆ ที่ใช้หน่วยความจำมาก
สำหรับผู้ใช้ CUDA ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งไดรเวอร์ NVIDIA ล่าสุดแล้ว

ปัญหาการเชื่อมต่อ API

หากคุณไม่สามารถเชื่อมต่อกับ API ได้:

ตรวจสอบให้แน่ใจว่า Ollama กำลังทำงานด้วย ollama serve
ตรวจสอบว่าพอร์ตเริ่มต้นถูกบล็อกหรือใช้งานอยู่ (lsof -i :11434)
ตรวจสอบการตั้งค่าไฟร์วอลล์หากเชื่อมต่อจากเครื่องอื่น

บทสรุป

Ollama พร้อม DeepSeek-R1 แสดงถึงก้าวสำคัญในการทำให้ AI เป็นประชาธิปไตยโดยการนำโมเดลภาษาที่ทรงพลังมาไว้ในมือของนักพัฒนาโดยตรง การผสมผสานนี้มอบความเป็นส่วนตัว การควบคุม และความสามารถที่น่าประทับใจ ทั้งหมดนี้โดยไม่ต้องพึ่งพาบริการภายนอก

เมื่อคุณสร้างแอปพลิเคชันด้วย LLM ในเครื่องเหล่านี้ โปรดจำไว้ว่าการทดสอบการผสานรวม API ของคุณอย่างเหมาะสมมีความสำคัญอย่างยิ่งต่อประสิทธิภาพที่เชื่อถือได้ เครื่องมือต่างๆ เช่น Apidog สามารถช่วยแสดงภาพและแก้ไขข้อบกพร่องของการตอบสนองแบบสตรีมมิ่งจาก Ollama ได้ โดยเฉพาะอย่างยิ่งเมื่อคุณกำลังสร้างแอปพลิเคชันที่ซับซ้อนซึ่งจำเป็นต้องประมวลผลเอาต์พุตของโมเดลแบบเรียลไทม์

ไม่ว่าคุณจะสร้างเนื้อหา สร้างอินเทอร์เฟซการสนทนา หรือสร้างผู้ช่วยโค้ด คู่หูที่ทรงพลังนี้มอบรากฐานที่คุณต้องการสำหรับการผสานรวม AI ที่ซับซ้อนในฮาร์ดแวร์ของคุณเอง

```