Tài liệu tóm tắt Ollama - Cách chạy LLM cục bộ với Ollama

Giới thiệu về LLM địa phương với Ollama

Cảnh quan AI đang phát triển nhanh chóng, nhưng một xu hướng rõ ràng: các nhà phát triển ngày càng muốn kiểm soát, bảo mật và linh hoạt hơn đối với các triển khai AI của họ. Ollama cung cấp chính xác điều đó, mang đến một cách thức hợp lý để chạy các mô hình ngôn ngữ lớn mạnh mẽ trên phần cứng của bạn mà không bị ràng buộc bởi các API dựa trên đám mây.

Tại sao lại chạy các mô hình trên địa phương? Ba lý do thuyết phục: bảo mật hoàn toàn cho dữ liệu nhạy cảm, không có vấn đề độ trễ từ các cuộc gọi API, và tự do khỏi các hạn chế sử dụng hoặc chi phí bất ngờ. Khi bạn đang xây dựng các ứng dụng yêu cầu hiệu suất AI nhất quán mà không gửi dữ liệu người dùng cho bên thứ ba, việc suy diễn địa phương trở thành không chỉ hấp dẫn mà còn cần thiết.

DeepSeek-R1 đại diện cho một bước tiến lớn trong các mô hình AI mã nguồn mở, cạnh tranh với khả năng của nhiều sản phẩm thương mại. Với khả năng lý luận mạnh mẽ, khả năng sinh mã, và khả năng xử lý đầu vào đa phương tiện, đây là một lựa chọn tuyệt vời cho các nhà phát triển muốn mở rộng ranh giới của những gì có thể với AI địa phương.

Các LLM mạnh mẽ xứng đáng với việc kiểm tra API mạnh mẽ.

Khi xây dựng các ứng dụng tích hợp với LLM địa phương như DeepSeek thông qua Ollama, bạn sẽ gặp phải thách thức trong việc gỡ lỗi các phản hồi AI liên tục. Đây là nơi Apidog thực sự tỏa sáng.

Không giống như các công cụ API chung, Apidog chuyên biệt về gỡ lỗi SSE hiển thị quá trình sinh token theo từng token trong thời gian thực—mang đến cho bạn cái nhìn rõ ràng chưa từng có về cách mô hình của bạn suy nghĩ. Dù bạn đang xây dựng một chatbot, trình tạo nội dung, hay tìm kiếm dựa trên AI, Apidog làm việc với các điểm cuối API của Ollama trở nên dễ dàng hơn rất nhiều.

Tôi cá nhân thấy sự kết hợp này có thể thay đổi cuộc chơi cho việc phát triển LLM địa phương.

button

Bắt đầu với Ollama

Cài đặt

Cài đặt Ollama rất đơn giản trên các hệ điều hành chính:

curl -fsSL https://ollama.com/install.sh | sh

Sau khi cài đặt, hãy khởi động máy chủ Ollama với:

ollama serve

Lệnh này khởi động Ollama như một dịch vụ lắng nghe các yêu cầu trên localhost:11434. Giữ cho cửa sổ terminal này chạy, hoặc thiết lập Ollama như một dịch vụ nền nếu bạn dự định sử dụng nó liên tục.

Yêu cầu hệ thống

Để có hiệu suất tối ưu với DeepSeek-R1:

Tối thiểu: 8GB RAM, CPU hiện đại với 4+ lõi
Khuyến nghị: 16GB+ RAM, GPU NVIDIA với 8GB+ VRAM
Lưu trữ: Ít nhất 10GB dung lượng miễn phí cho mô hình cơ bản

Lệnh cơ bản

Kiểm tra phiên bản đã cài đặt:

ollama --version

Nhận trợ giúp về các lệnh có sẵn:

ollama help

Quản lý các mô hình

Khám phá và tải mô hình

Trước khi đi vào việc thao tác mô hình, hãy xem những gì có sẵn:

ollama list

Lệnh này hiển thị tất cả các mô hình đã cài đặt trên địa phương. Khi bạn sẵn sàng tải xuống DeepSeek-R1:

ollama pull deepseek-r1

Ollama cung cấp nhiều kích thước mô hình khác nhau để phù hợp với khả năng phần cứng của bạn. Đối với các máy có tài nguyên hạn chế, hãy thử:

ollama pull deepseek-r1:7b

Đối với các thiết lập mạnh mẽ hơn đang tìm kiếm khả năng nâng cao:

ollama pull deepseek-r1:8b

Bị giới hạn nội dung? Một số nhà phát triển thích các mô hình ít bộ lọc hơn:

ollama pull open-r1

Chạy các mô hình một cách hiệu quả

Sức mạnh thực sự của Ollama trở nên rõ ràng khi bạn bắt đầu tương tác với các mô hình. Khởi chạy một phiên trò chuyện tương tác:

ollama run deepseek-r1

Điều này mở ra một cuộc trò chuyện thời gian thực nơi bạn có thể khám phá các khả năng của DeepSeek-R1. Gõ truy vấn của bạn và nhấn Enter, hoặc sử dụng /help để xem các lệnh đặc biệt có sẵn trong phiên.

Đối với các truy vấn nhanh, một lần mà không cần vào chế độ tương tác:

ollama run deepseek-r1 "Giải thích về điện toán lượng tử bằng các thuật ngữ đơn giản"

Xử lý văn bản trực tiếp từ các tệp—cực kỳ hữu ích cho các tác vụ tóm tắt, phân tích hoặc chuyển đổi:

ollama run deepseek-r1 "Tóm tắt nội dung của tệp này trong 50 từ." < input.txt

Tinh chỉnh các tham số mô hình

Hành vi của DeepSeek-R1 có thể bị thay đổi đáng kể thông qua việc điều chỉnh các tham số. Để có những đầu ra sáng tạo, đa dạng:

ollama run deepseek-r1 --temperature 0.7 --top-p 0.9

Để có phản hồi thực tế, xác định hơn phù hợp với lập trình hoặc giải thích kỹ thuật:

ollama run deepseek-r1 --temperature 0.1 --top-p 1.0

Hướng dẫn tham số:

Nhiệt độ (0.0-1.0): Giá trị thấp hơn làm cho phản hồi tập trung và xác định hơn; giá trị cao hơn tạo ra tính sáng tạo và đa dạng.
Top-p (0.0-1.0): Kiểm soát sự đa dạng bằng cách chỉ xem xét các token có xác suất cao nhất mà xác suất tích lũy của chúng vượt qua ngưỡng này.
Cửa sổ ngữ cảnh: Xác định mức độ mà mô hình nhớ các cuộc trò chuyện trước đó.

Sử dụng nâng cao và tích hợp API

Tệp Mô hình tùy chỉnh cho các ứng dụng chuyên biệt

Độ linh hoạt thực sự của Ollama xuất hiện khi bạn tạo ra các Tệp Mô hình tùy chỉnh để điều chỉnh DeepSeek-R1 cho các tác vụ cụ thể:

FROM deepseek-r1:8b
PARAMETER temperature 0.3
PARAMETER top_p 0.95
SYSTEM Bạn là một nhà phát triển phần mềm cấp cao chuyên về Python. Cung cấp mã sạch, hiệu quả với các chú thích hữu ích.

Lưu điều này dưới dạng Modelfile và tạo mô hình tùy chỉnh của bạn:

ollama create python-expert -f Modelfile

Chạy nó giống như bất kỳ mô hình nào khác:

ollama run python-expert "Viết một hàm để tìm số nguyên tố trong một khoảng cho trước"

REST API để tích hợp ứng dụng

Khi sử dụng dòng lệnh thì tiện lợi cho việc thử nghiệm, nhưng các ứng dụng thực tế cần có quyền truy cập API. Ollama cung cấp một REST API đơn giản trên cổng 11434:

# Yêu cầu hoàn thành cơ bản
curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Viết một hàm đệ quy để tính toán các số Fibonacci",
  "stream": false
}'

Đối với các phản hồi liên tục (lý tưởng cho các giao diện trò chuyện):

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Giải thích cách mà các mạng nơ-ron học tập bằng những từ đơn giản",
  "stream": true
}'

Kiểm tra các điểm cuối API với Apidog

Khi xây dựng các ứng dụng tích hợp với API của Ollama, việc kiểm tra và hiển thị các phản hồi liên tục trở nên rất quan trọng. Apidog xuất sắc trong việc xử lý các Sự kiện Gửi từ Máy chủ (SSE) như những gì được tạo ra bởi API liên tục của Ollama:

Tạo một dự án HTTP mới trong Apidog
Thêm một điểm cuối với URL http://localhost:11434/api/generate
Thiết lập một yêu cầu POST với nội dung JSON:

{
  "model": "deepseek-r1",
  "prompt": "Viết một câu chuyện về một lập trình viên phát hiện ra một AI",
  "stream": true
}

Gửi yêu cầu và xem Apidog's SSE debugger hiển thị quá trình sinh token theo từng token trong thời gian thực

Sự hiển thị này giúp xác định các vấn đề với định dạng phản hồi, sinh token, hoặc hành vi bất ngờ của mô hình mà có thể khó gỡ lỗi nếu không có sự trợ giúp.

Các ứng dụng thực tế với DeepSeek-R1

DeepSeek-R1 xuất sắc trong nhiều tình huống thực tế:

Tạo nội dung

Tạo các bài viết blog chất lượng chuyên nghiệp:

ollama run deepseek-r1 "Viết một bài blog 500 từ về công nghệ bền vững"

Trích xuất thông tin

Xử lý và phân tích các tài liệu để trích xuất thông tin chính:

ollama run deepseek-r1 "Trích xuất các điểm chính từ tài liệu nghiên cứu này: " < paper.txt

Phân tích hình ảnh

Xử lý hình ảnh để mô tả nội dung hoặc phân tích:

ollama run deepseek-r1 "Phân tích và mô tả nội dung của hình ảnh này" < image.jpg

Tạo mã và giải thích

Tạo các giải pháp mã cho các vấn đề cụ thể:

ollama run deepseek-r1 "Viết một hàm Python thực hiện thuật toán tìm kiếm nhị phân với các chú thích chi tiết"

Hoặc giải thích mã phức tạp:

ollama run deepseek-r1 "Giải thích mã này làm gì: " < complex_algorithm.py

Khắc phục sự cố các vấn đề phổ biến

Các vấn đề về bộ nhớ và hiệu suất

Nếu bạn gặp lỗi hết bộ nhớ:

Thử một biến thể mô hình nhỏ hơn (7B thay vì 8B)
Giảm kích thước cửa sổ ngữ cảnh với --ctx N (ví dụ: --ctx 2048)
Đóng các ứng dụng chiếm dụng bộ nhớ khác
Đối với người dùng CUDA, hãy đảm bảo bạn đã cài đặt trình điều khiển NVIDIA mới nhất

Các vấn đề kết nối API

Nếu bạn không thể kết nối với API:

Đảm bảo Ollama đang chạy với ollama serve
Kiểm tra xem cổng mặc định có bị chặn hoặc đang sử dụng không (lsof -i :11434)
Xác minh cài đặt tường lửa nếu kết nối từ máy khác

Kết luận

Ollama với DeepSeek-R1 đại diện cho một bước tiến lớn trong việc dân chủ hóa AI bằng cách đưa các mô hình ngôn ngữ mạnh mẽ trực tiếp vào tay các nhà phát triển. Sự kết hợp này mang đến sự riêng tư, kiểm soát và khả năng ấn tượng—tất cả đều không phụ thuộc vào các dịch vụ bên ngoài.

Khi bạn xây dựng các ứng dụng với các LLM địa phương này, hãy nhớ rằng việc kiểm tra đúng các tích hợp API của bạn là điều cần thiết để đảm bảo hiệu suất đáng tin cậy. Các công cụ như Apidog có thể giúp hiển thị và gỡ lỗi các phản hồi liên tục từ Ollama, đặc biệt khi bạn đang xây dựng các ứng dụng phức tạp cần xử lý đầu ra mô hình trong thời gian thực.

Dù bạn đang tạo nội dung, xây dựng giao diện trò chuyện, hay tạo các trợ lý lập trình, bộ đôi mạnh mẽ này cung cấp nền tảng bạn cần cho việc tích hợp AI tinh vi—ngay trên phần cứng của riêng bạn.