Hướng dẫn chạy GPT-OSS miễn phí với Ollama

Ashley Innocent

Ashley Innocent

5 tháng 8 2025

Hướng dẫn chạy GPT-OSS miễn phí với Ollama

Chạy các mô hình ngôn ngữ lớn (LLM) cục bộ giúp các nhà phát triển có được quyền riêng tư, kiểm soát và tiết kiệm chi phí. Các mô hình mã nguồn mở của OpenAI, được gọi chung là GPT-OSS (gpt-oss-120b và gpt-oss-20b), cung cấp khả năng suy luận mạnh mẽ cho các tác vụ như viết mã, quy trình làm việc tự động và phân tích dữ liệu. Với Ollama, một nền tảng mã nguồn mở, bạn có thể triển khai các mô hình này trên phần cứng của riêng mình mà không cần phụ thuộc vào đám mây. Hướng dẫn kỹ thuật này sẽ hướng dẫn bạn cách cài đặt Ollama, cấu hình các mô hình GPT-OSS và gỡ lỗi bằng Apidog, một công cụ giúp đơn giản hóa việc kiểm thử API cho các LLM cục bộ.

💡
Để gỡ lỗi API liền mạch, hãy tải xuống Apidog miễn phí để trực quan hóa và tối ưu hóa các tương tác GPT-OSS của bạn.
nút

Tại sao nên chạy GPT-OSS cục bộ với Ollama?

Chạy GPT-OSS cục bộ bằng Ollama mang lại những lợi thế riêng biệt cho các nhà phát triển và nhà nghiên cứu. Thứ nhất, nó đảm bảo quyền riêng tư dữ liệu, vì đầu vào và đầu ra của bạn vẫn nằm trên máy của bạn. Thứ hai, nó loại bỏ chi phí API đám mây định kỳ, làm cho nó lý tưởng cho các trường hợp sử dụng khối lượng lớn hoặc thử nghiệm. Thứ ba, khả năng tương thích của Ollama với cấu trúc API của OpenAI cho phép tích hợp liền mạch với các công cụ hiện có, trong khi hỗ trợ các mô hình lượng tử hóa như gpt-oss-20b (chỉ yêu cầu 16GB bộ nhớ) đảm bảo khả năng truy cập trên phần cứng khiêm tốn.

Hơn nữa, Ollama đơn giản hóa sự phức tạp của việc triển khai LLM. Nó xử lý trọng số mô hình, các phụ thuộc và cấu hình thông qua một Modelfile duy nhất, tương tự như một container Docker cho AI. Khi kết hợp với Apidog, công cụ cung cấp khả năng trực quan hóa theo thời gian thực các phản hồi AI dạng luồng, bạn sẽ có được một hệ sinh thái mạnh mẽ để phát triển AI cục bộ. Tiếp theo, hãy cùng khám phá các điều kiện tiên quyết để thiết lập môi trường này.

Điều kiện tiên quyết để chạy GPT-OSS cục bộ

Trước khi tiếp tục, hãy đảm bảo hệ thống của bạn đáp ứng các yêu cầu sau:

Với những điều kiện này, bạn đã sẵn sàng cài đặt Ollama và triển khai GPT-OSS. Hãy chuyển sang quá trình cài đặt.

Bước 1: Cài đặt Ollama trên hệ thống của bạn

Việc cài đặt Ollama rất đơn giản, hỗ trợ macOS, Linux và Windows. Thực hiện theo các bước sau để thiết lập:

Tải xuống Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Script này tự động hóa quá trình tải xuống và thiết lập.

Xác minh cài đặt:

Khởi động máy chủ Ollama:

Sau khi cài đặt, Ollama đã sẵn sàng để tải xuống và chạy các mô hình GPT-OSS. Hãy tiếp tục tải xuống các mô hình.

Bước 2: Tải xuống các mô hình GPT-OSS

Các mô hình GPT-OSS của OpenAI (gpt-oss-120b và gpt-oss-20b) có sẵn trên Hugging Face và được tối ưu hóa cho Ollama với lượng tử hóa MXFP4, giảm yêu cầu bộ nhớ. Thực hiện theo các bước sau để tải xuống chúng:

Chọn mô hình:

Tải xuống qua Ollama:

ollama pull gpt-oss-20b

hoặc

ollama pull gpt-oss-120b

Tùy thuộc vào phần cứng của bạn, quá trình tải xuống (20-50GB) có thể mất thời gian. Đảm bảo kết nối internet ổn định.

Xác minh quá trình tải xuống:

ollama list

Tìm gpt-oss-20b:latest hoặc gpt-oss-120b:latest.

Với mô hình đã tải xuống, giờ đây bạn có thể chạy nó cục bộ. Hãy cùng khám phá cách tương tác với GPT-OSS.

Bước 3: Chạy các mô hình GPT-OSS với Ollama

Ollama cung cấp nhiều cách để tương tác với các mô hình GPT-OSS: giao diện dòng lệnh (CLI), API hoặc giao diện đồ họa như Open WebUI. Hãy bắt đầu với CLI để đơn giản.

Khởi chạy phiên tương tác:

ollama run gpt-oss-20b

Thao tác này mở một phiên trò chuyện thời gian thực. Nhập truy vấn của bạn (ví dụ: “Viết một hàm Python để tìm kiếm nhị phân”) và nhấn Enter. Sử dụng /help cho các lệnh đặc biệt.

Truy vấn một lần:

ollama run gpt-oss-20b "Giải thích điện toán lượng tử một cách đơn giản"

Điều chỉnh thông số:

ollama run gpt-oss-20b --temperature 0.1 --top-p 1.0 "Viết tóm tắt thực tế về công nghệ blockchain"

Nhiệt độ thấp hơn (ví dụ: 0.1) đảm bảo đầu ra mang tính xác định, thực tế, lý tưởng cho các tác vụ kỹ thuật.

Tiếp theo, hãy tùy chỉnh hành vi của mô hình bằng cách sử dụng Modelfiles cho các trường hợp sử dụng cụ thể.

Bước 4: Tùy chỉnh GPT-OSS với Ollama Modelfiles

Modelfiles của Ollama cho phép bạn điều chỉnh hành vi của GPT-OSS mà không cần đào tạo lại. Bạn có thể đặt lời nhắc hệ thống, điều chỉnh kích thước ngữ cảnh hoặc tinh chỉnh các tham số. Dưới đây là cách tạo một mô hình tùy chỉnh:

Tạo Modelfile:

FROM gpt-oss-20b
SYSTEM "Bạn là trợ lý kỹ thuật chuyên về lập trình Python. Cung cấp mã ngắn gọn, chính xác với các bình luận."
PARAMETER temperature 0.5
PARAMETER num_ctx 4096

Điều này cấu hình mô hình thành một trợ lý tập trung vào Python với khả năng sáng tạo vừa phải và cửa sổ ngữ cảnh 4k token.

Xây dựng mô hình tùy chỉnh:

ollama create python-gpt-oss -f Modelfile

Chạy mô hình tùy chỉnh:

ollama run python-gpt-oss

Bây giờ, mô hình ưu tiên các phản hồi liên quan đến Python với hành vi đã chỉ định.

Việc tùy chỉnh này nâng cao GPT-OSS cho các lĩnh vực cụ thể, chẳng hạn như viết mã hoặc tài liệu kỹ thuật. Bây giờ, hãy tích hợp mô hình vào các ứng dụng bằng cách sử dụng API của Ollama.

Bước 5: Tích hợp GPT-OSS với API của Ollama

API của Ollama, chạy trên http://localhost:11434, cho phép truy cập chương trình vào GPT-OSS. Điều này lý tưởng cho các nhà phát triển xây dựng ứng dụng hỗ trợ AI. Dưới đây là cách sử dụng nó:

Điểm cuối API:

curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "prompt": "Viết một script Python cho REST API"}'
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "messages": [{"role": "user", "content": "Giải thích mạng nơ-ron"}]}'

Khả năng tương thích OpenAI:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": "Học máy là gì?"}]
)
print(response.choices[0].message.content)

Tích hợp API này cho phép GPT-OSS cung cấp năng lượng cho các chatbot, trình tạo mã hoặc công cụ phân tích dữ liệu. Tuy nhiên, việc gỡ lỗi các phản hồi dạng luồng có thể khó khăn. Hãy xem Apidog đơn giản hóa điều này như thế nào.

Bước 6: Gỡ lỗi GPT-OSS với Apidog

Apidog là một công cụ kiểm thử API mạnh mẽ giúp trực quan hóa các phản hồi dạng luồng từ các điểm cuối của Ollama, giúp việc gỡ lỗi đầu ra của GPT-OSS dễ dàng hơn. Dưới đây là cách sử dụng nó:

Cài đặt Apidog:

Cấu hình API Ollama trong Apidog:

{
  "model": "gpt-oss-20b",
  "prompt": "Tạo một hàm Python để sắp xếp",
  "stream": true
}

Trực quan hóa phản hồi:

Kiểm thử so sánh:

Khả năng trực quan hóa của Apidog biến việc gỡ lỗi từ một tác vụ tẻ nhạt thành một quy trình rõ ràng, có thể hành động, nâng cao quy trình làm việc phát triển của bạn. Bây giờ, hãy giải quyết các vấn đề phổ biến mà bạn có thể gặp phải.

Bước 7: Khắc phục các sự cố thường gặp

Chạy GPT-OSS cục bộ có thể gặp phải những thách thức. Dưới đây là các giải pháp cho các vấn đề thường gặp:

Lỗi bộ nhớ GPU:

Mô hình không khởi động:

API không phản hồi:

Hiệu suất chậm:

Đối với các vấn đề dai dẳng, hãy tham khảo Ollama GitHub hoặc cộng đồng Hugging Face để được hỗ trợ GPT-OSS.

Bước 8: Nâng cao GPT-OSS với Open WebUI

Để có giao diện thân thiện với người dùng, hãy ghép nối Ollama với Open WebUI, một bảng điều khiển dựa trên trình duyệt cho GPT-OSS:

Cài đặt Open WebUI:

docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main

Truy cập giao diện:

Tải lên tài liệu:

Open WebUI đơn giản hóa tương tác cho người dùng không chuyên về kỹ thuật, bổ sung cho khả năng gỡ lỗi kỹ thuật của Apidog.

Kết luận: Khai thác GPT-OSS với Ollama và Apidog

Chạy GPT-OSS cục bộ với Ollama cho phép bạn khai thác các mô hình mã nguồn mở của OpenAI miễn phí, với toàn quyền kiểm soát quyền riêng tư và tùy chỉnh. Bằng cách làm theo hướng dẫn này, bạn đã học cách cài đặt Ollama, tải xuống các mô hình GPT-OSS, tùy chỉnh hành vi, tích hợp qua API và gỡ lỗi với Apidog. Cho dù bạn đang xây dựng các ứng dụng hỗ trợ AI hay thử nghiệm các tác vụ suy luận, thiết lập này mang lại sự linh hoạt vô song. Những điều chỉnh nhỏ, như điều chỉnh các tham số hoặc sử dụng khả năng trực quan hóa của Apidog, có thể cải thiện đáng kể quy trình làm việc của bạn. Hãy bắt đầu khám phá AI cục bộ ngay hôm nay và mở khóa tiềm năng của GPT-OSS!

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API