Chạy các mô hình ngôn ngữ lớn (LLM) cục bộ giúp các nhà phát triển có được quyền riêng tư, kiểm soát và tiết kiệm chi phí. Các mô hình mã nguồn mở của OpenAI, được gọi chung là GPT-OSS (gpt-oss-120b và gpt-oss-20b), cung cấp khả năng suy luận mạnh mẽ cho các tác vụ như viết mã, quy trình làm việc tự động và phân tích dữ liệu. Với Ollama, một nền tảng mã nguồn mở, bạn có thể triển khai các mô hình này trên phần cứng của riêng mình mà không cần phụ thuộc vào đám mây. Hướng dẫn kỹ thuật này sẽ hướng dẫn bạn cách cài đặt Ollama, cấu hình các mô hình GPT-OSS và gỡ lỗi bằng Apidog, một công cụ giúp đơn giản hóa việc kiểm thử API cho các LLM cục bộ.
Tại sao nên chạy GPT-OSS cục bộ với Ollama?
Chạy GPT-OSS cục bộ bằng Ollama mang lại những lợi thế riêng biệt cho các nhà phát triển và nhà nghiên cứu. Thứ nhất, nó đảm bảo quyền riêng tư dữ liệu, vì đầu vào và đầu ra của bạn vẫn nằm trên máy của bạn. Thứ hai, nó loại bỏ chi phí API đám mây định kỳ, làm cho nó lý tưởng cho các trường hợp sử dụng khối lượng lớn hoặc thử nghiệm. Thứ ba, khả năng tương thích của Ollama với cấu trúc API của OpenAI cho phép tích hợp liền mạch với các công cụ hiện có, trong khi hỗ trợ các mô hình lượng tử hóa như gpt-oss-20b (chỉ yêu cầu 16GB bộ nhớ) đảm bảo khả năng truy cập trên phần cứng khiêm tốn.

Hơn nữa, Ollama đơn giản hóa sự phức tạp của việc triển khai LLM. Nó xử lý trọng số mô hình, các phụ thuộc và cấu hình thông qua một Modelfile duy nhất, tương tự như một container Docker cho AI. Khi kết hợp với Apidog, công cụ cung cấp khả năng trực quan hóa theo thời gian thực các phản hồi AI dạng luồng, bạn sẽ có được một hệ sinh thái mạnh mẽ để phát triển AI cục bộ. Tiếp theo, hãy cùng khám phá các điều kiện tiên quyết để thiết lập môi trường này.
Điều kiện tiên quyết để chạy GPT-OSS cục bộ
Trước khi tiếp tục, hãy đảm bảo hệ thống của bạn đáp ứng các yêu cầu sau:
- Phần cứng:
- Đối với gpt-oss-20b: Tối thiểu 16GB RAM, lý tưởng nhất là có GPU (ví dụ: NVIDIA 1060 4GB).
- Đối với gpt-oss-120b: 80GB bộ nhớ GPU (ví dụ: một GPU 80GB duy nhất hoặc thiết lập trung tâm dữ liệu cao cấp).
- 20-50GB dung lượng lưu trữ trống cho trọng số mô hình và các phụ thuộc.
- Phần mềm:
- Hệ điều hành: Nên dùng Linux hoặc macOS; Windows được hỗ trợ với thiết lập bổ sung.
- Ollama: Tải xuống từ ollama.com.
- Tùy chọn: Docker để chạy Open WebUI hoặc Apidog để kiểm thử API.
- Internet: Kết nối ổn định để tải xuống mô hình ban đầu.
- Phụ thuộc: Trình điều khiển GPU NVIDIA/AMD nếu sử dụng tăng tốc GPU; chế độ chỉ CPU hoạt động nhưng chậm hơn.
Với những điều kiện này, bạn đã sẵn sàng cài đặt Ollama và triển khai GPT-OSS. Hãy chuyển sang quá trình cài đặt.
Bước 1: Cài đặt Ollama trên hệ thống của bạn
Việc cài đặt Ollama rất đơn giản, hỗ trợ macOS, Linux và Windows. Thực hiện theo các bước sau để thiết lập:
Tải xuống Ollama:
- Truy cập ollama.com và tải xuống trình cài đặt cho hệ điều hành của bạn.
- Đối với Linux/macOS, sử dụng lệnh terminal:
curl -fsSL https://ollama.com/install.sh | sh
Script này tự động hóa quá trình tải xuống và thiết lập.
Xác minh cài đặt:
- Chạy
ollama --version
trong terminal của bạn. Bạn sẽ thấy một số phiên bản (ví dụ: 0.1.44). Nếu không, hãy kiểm tra Ollama GitHub để khắc phục sự cố.
Khởi động máy chủ Ollama:
- Thực thi
ollama serve
để khởi chạy máy chủ, lắng nghe trênhttp://localhost:11434
. Giữ terminal này chạy hoặc cấu hình Ollama như một dịch vụ nền để sử dụng liên tục.
Sau khi cài đặt, Ollama đã sẵn sàng để tải xuống và chạy các mô hình GPT-OSS. Hãy tiếp tục tải xuống các mô hình.
Bước 2: Tải xuống các mô hình GPT-OSS
Các mô hình GPT-OSS của OpenAI (gpt-oss-120b và gpt-oss-20b) có sẵn trên Hugging Face và được tối ưu hóa cho Ollama với lượng tử hóa MXFP4, giảm yêu cầu bộ nhớ. Thực hiện theo các bước sau để tải xuống chúng:
Chọn mô hình:
- gpt-oss-20b: Lý tưởng cho máy tính để bàn/máy tính xách tay với 16GB RAM. Nó kích hoạt 3.6B tham số trên mỗi token, phù hợp cho các thiết bị biên.

- gpt-oss-120b: Được thiết kế cho các trung tâm dữ liệu hoặc GPU cao cấp với 80GB bộ nhớ, kích hoạt 5.1B tham số trên mỗi token.

Tải xuống qua Ollama:
- Trong terminal của bạn, chạy:
ollama pull gpt-oss-20b
hoặc
ollama pull gpt-oss-120b
Tùy thuộc vào phần cứng của bạn, quá trình tải xuống (20-50GB) có thể mất thời gian. Đảm bảo kết nối internet ổn định.
Xác minh quá trình tải xuống:
- Liệt kê các mô hình đã cài đặt bằng cách:
ollama list
Tìm gpt-oss-20b:latest
hoặc gpt-oss-120b:latest
.
Với mô hình đã tải xuống, giờ đây bạn có thể chạy nó cục bộ. Hãy cùng khám phá cách tương tác với GPT-OSS.
Bước 3: Chạy các mô hình GPT-OSS với Ollama
Ollama cung cấp nhiều cách để tương tác với các mô hình GPT-OSS: giao diện dòng lệnh (CLI), API hoặc giao diện đồ họa như Open WebUI. Hãy bắt đầu với CLI để đơn giản.
Khởi chạy phiên tương tác:
- Chạy:
ollama run gpt-oss-20b
Thao tác này mở một phiên trò chuyện thời gian thực. Nhập truy vấn của bạn (ví dụ: “Viết một hàm Python để tìm kiếm nhị phân”) và nhấn Enter. Sử dụng /help
cho các lệnh đặc biệt.
Truy vấn một lần:
- Để có phản hồi nhanh mà không cần chế độ tương tác, hãy sử dụng:
ollama run gpt-oss-20b "Giải thích điện toán lượng tử một cách đơn giản"
Điều chỉnh thông số:
- Sửa đổi hành vi của mô hình bằng các thông số như nhiệt độ (sáng tạo) và top-p (đa dạng phản hồi). Ví dụ:
ollama run gpt-oss-20b --temperature 0.1 --top-p 1.0 "Viết tóm tắt thực tế về công nghệ blockchain"
Nhiệt độ thấp hơn (ví dụ: 0.1) đảm bảo đầu ra mang tính xác định, thực tế, lý tưởng cho các tác vụ kỹ thuật.
Tiếp theo, hãy tùy chỉnh hành vi của mô hình bằng cách sử dụng Modelfiles cho các trường hợp sử dụng cụ thể.
Bước 4: Tùy chỉnh GPT-OSS với Ollama Modelfiles
Modelfiles của Ollama cho phép bạn điều chỉnh hành vi của GPT-OSS mà không cần đào tạo lại. Bạn có thể đặt lời nhắc hệ thống, điều chỉnh kích thước ngữ cảnh hoặc tinh chỉnh các tham số. Dưới đây là cách tạo một mô hình tùy chỉnh:
Tạo Modelfile:
- Tạo một tệp có tên
Modelfile
với nội dung:
FROM gpt-oss-20b
SYSTEM "Bạn là trợ lý kỹ thuật chuyên về lập trình Python. Cung cấp mã ngắn gọn, chính xác với các bình luận."
PARAMETER temperature 0.5
PARAMETER num_ctx 4096
Điều này cấu hình mô hình thành một trợ lý tập trung vào Python với khả năng sáng tạo vừa phải và cửa sổ ngữ cảnh 4k token.
Xây dựng mô hình tùy chỉnh:
- Điều hướng đến thư mục chứa Modelfile và chạy:
ollama create python-gpt-oss -f Modelfile
Chạy mô hình tùy chỉnh:
- Khởi chạy nó với:
ollama run python-gpt-oss
Bây giờ, mô hình ưu tiên các phản hồi liên quan đến Python với hành vi đã chỉ định.
Việc tùy chỉnh này nâng cao GPT-OSS cho các lĩnh vực cụ thể, chẳng hạn như viết mã hoặc tài liệu kỹ thuật. Bây giờ, hãy tích hợp mô hình vào các ứng dụng bằng cách sử dụng API của Ollama.
Bước 5: Tích hợp GPT-OSS với API của Ollama
API của Ollama, chạy trên http://localhost:11434
, cho phép truy cập chương trình vào GPT-OSS. Điều này lý tưởng cho các nhà phát triển xây dựng ứng dụng hỗ trợ AI. Dưới đây là cách sử dụng nó:
Điểm cuối API:
- POST /api/generate: Tạo văn bản cho một lời nhắc duy nhất. Ví dụ:
curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "prompt": "Viết một script Python cho REST API"}'
- POST /api/chat: Hỗ trợ tương tác hội thoại với lịch sử tin nhắn:
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "messages": [{"role": "user", "content": "Giải thích mạng nơ-ron"}]}'
- POST /api/embeddings: Tạo nhúng vector cho các tác vụ ngữ nghĩa như tìm kiếm hoặc phân loại.
Khả năng tương thích OpenAI:
- Ollama hỗ trợ định dạng API Chat Completions của OpenAI. Sử dụng Python với thư viện OpenAI:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="gpt-oss-20b",
messages=[{"role": "user", "content": "Học máy là gì?"}]
)
print(response.choices[0].message.content)
Tích hợp API này cho phép GPT-OSS cung cấp năng lượng cho các chatbot, trình tạo mã hoặc công cụ phân tích dữ liệu. Tuy nhiên, việc gỡ lỗi các phản hồi dạng luồng có thể khó khăn. Hãy xem Apidog đơn giản hóa điều này như thế nào.
Bước 6: Gỡ lỗi GPT-OSS với Apidog
Apidog là một công cụ kiểm thử API mạnh mẽ giúp trực quan hóa các phản hồi dạng luồng từ các điểm cuối của Ollama, giúp việc gỡ lỗi đầu ra của GPT-OSS dễ dàng hơn. Dưới đây là cách sử dụng nó:
Cài đặt Apidog:
- Tải xuống Apidog từ apidog.com và cài đặt nó trên hệ thống của bạn.
Cấu hình API Ollama trong Apidog:
- Tạo một yêu cầu API mới trong Apidog.
- Đặt URL thành
http://localhost:11434/api/generate
. - Sử dụng một phần thân JSON như sau:
{
"model": "gpt-oss-20b",
"prompt": "Tạo một hàm Python để sắp xếp",
"stream": true
}
Trực quan hóa phản hồi:
- Apidog hợp nhất các token dạng luồng thành một định dạng dễ đọc, không giống như đầu ra JSON thô. Điều này giúp xác định các vấn đề định dạng hoặc lỗi logic trong quá trình suy luận của mô hình.
- Sử dụng phân tích suy luận của Apidog để kiểm tra quá trình tư duy từng bước của GPT-OSS, đặc biệt đối với các tác vụ phức tạp như viết mã hoặc giải quyết vấn đề.
Kiểm thử so sánh:
- Tạo các bộ sưu tập lời nhắc trong Apidog để kiểm tra cách các tham số khác nhau (ví dụ: nhiệt độ, top-p) ảnh hưởng đến đầu ra của GPT-OSS. Điều này đảm bảo hiệu suất mô hình tối ưu cho trường hợp sử dụng của bạn.
Khả năng trực quan hóa của Apidog biến việc gỡ lỗi từ một tác vụ tẻ nhạt thành một quy trình rõ ràng, có thể hành động, nâng cao quy trình làm việc phát triển của bạn. Bây giờ, hãy giải quyết các vấn đề phổ biến mà bạn có thể gặp phải.
Bước 7: Khắc phục các sự cố thường gặp
Chạy GPT-OSS cục bộ có thể gặp phải những thách thức. Dưới đây là các giải pháp cho các vấn đề thường gặp:
Lỗi bộ nhớ GPU:
- Vấn đề: gpt-oss-120b không hoạt động do không đủ bộ nhớ GPU.
- Giải pháp: Chuyển sang gpt-oss-20b hoặc đảm bảo hệ thống của bạn có GPU 80GB. Kiểm tra mức sử dụng bộ nhớ bằng
nvidia-smi
.
Mô hình không khởi động:
- Vấn đề:
ollama run
thất bại với lỗi. - Giải pháp: Xác minh mô hình đã được tải xuống (
ollama list
) và máy chủ Ollama đang chạy (ollama serve
). Kiểm tra nhật ký trong~/.ollama/logs
.
API không phản hồi:
- Vấn đề: Các yêu cầu API tới
localhost:11434
thất bại. - Giải pháp: Đảm bảo
ollama serve
đang hoạt động và cổng 11434 đang mở. Sử dụngnetstat -tuln | grep 11434
để xác nhận.
Hiệu suất chậm:
- Vấn đề: Suy luận dựa trên CPU chậm chạp.
- Giải pháp: Bật tăng tốc GPU với trình điều khiển phù hợp hoặc sử dụng mô hình nhỏ hơn như gpt-oss-20b.
Đối với các vấn đề dai dẳng, hãy tham khảo Ollama GitHub hoặc cộng đồng Hugging Face để được hỗ trợ GPT-OSS.
Bước 8: Nâng cao GPT-OSS với Open WebUI
Để có giao diện thân thiện với người dùng, hãy ghép nối Ollama với Open WebUI, một bảng điều khiển dựa trên trình duyệt cho GPT-OSS:
Cài đặt Open WebUI:
- Sử dụng Docker:
docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main
Truy cập giao diện:
- Mở
http://localhost:3000
trong trình duyệt của bạn. - Chọn
gpt-oss-20b
hoặcgpt-oss-120b
và bắt đầu trò chuyện. Các tính năng bao gồm lịch sử trò chuyện, lưu trữ lời nhắc và chuyển đổi mô hình.
Tải lên tài liệu:
- Tải lên tệp để có các phản hồi theo ngữ cảnh (ví dụ: đánh giá mã hoặc phân tích dữ liệu) bằng cách sử dụng Tạo sinh tăng cường truy xuất (RAG).
Open WebUI đơn giản hóa tương tác cho người dùng không chuyên về kỹ thuật, bổ sung cho khả năng gỡ lỗi kỹ thuật của Apidog.
Kết luận: Khai thác GPT-OSS với Ollama và Apidog
Chạy GPT-OSS cục bộ với Ollama cho phép bạn khai thác các mô hình mã nguồn mở của OpenAI miễn phí, với toàn quyền kiểm soát quyền riêng tư và tùy chỉnh. Bằng cách làm theo hướng dẫn này, bạn đã học cách cài đặt Ollama, tải xuống các mô hình GPT-OSS, tùy chỉnh hành vi, tích hợp qua API và gỡ lỗi với Apidog. Cho dù bạn đang xây dựng các ứng dụng hỗ trợ AI hay thử nghiệm các tác vụ suy luận, thiết lập này mang lại sự linh hoạt vô song. Những điều chỉnh nhỏ, như điều chỉnh các tham số hoặc sử dụng khả năng trực quan hóa của Apidog, có thể cải thiện đáng kể quy trình làm việc của bạn. Hãy bắt đầu khám phá AI cục bộ ngay hôm nay và mở khóa tiềm năng của GPT-OSS!
