Chuyển Đổi LLM Trên Thiết Bị Apple Sang API Tương Thích OpenAI

Trong kỷ nguyên mà trí tuệ nhân tạo ngày càng dịch chuyển từ đám mây sang thiết bị biên (edge), Apple đã có một bước tiến đáng kể với việc giới thiệu các Mô hình Nền tảng (Foundation Models) chạy trên thiết bị, một thành phần cốt lõi của Apple Intelligence vừa ra mắt. Các mô hình mạnh mẽ, bảo mật quyền riêng tư này chạy trực tiếp trên thiết bị của người dùng, mang lại tốc độ và bảo mật dữ liệu chưa từng có. Tuy nhiên, đối với cộng đồng nhà phát triển rộng lớn và hệ sinh thái ứng dụng được xây dựng xung quanh API OpenAI tiêu chuẩn công nghiệp, một câu hỏi quan trọng đặt ra: Làm thế nào chúng ta có thể khai thác sức mạnh mới, chạy trên thiết bị này mà không cần tái cấu trúc hoàn toàn các công cụ hiện có?

Câu trả lời đến từ cộng đồng nhà phát triển dưới dạng một giải pháp tinh tế và mạnh mẽ: dự án "Apple On-Device OpenAI API". Công cụ mã nguồn mở này hoạt động như một cầu nối tuyệt vời giữa khả năng AI mới của Apple và thế giới quen thuộc của API OpenAI. Nó tạo ra một máy chủ cục bộ, nhẹ trên máy Mac của bạn, hiển thị các Mô hình Nền tảng của Apple thông qua các điểm cuối (endpoints) tương thích với OpenAI. Về cơ bản, nó cho phép bất kỳ ứng dụng nào biết cách giao tiếp với OpenAI giờ đây, chỉ với những thay đổi tối thiểu, có thể giao tiếp trực tiếp với AI đang chạy trên thiết bị Apple của chính bạn.

Ảnh chụp màn hình ứng dụng Apple On-Device OpenAI đang chạy trên macOS

Bài viết này đóng vai trò là hướng dẫn toàn diện để hiểu, cài đặt và sử dụng kho lưu trữ đột phá này. Chúng ta sẽ đi sâu vào lý do tại sao một công cụ như vậy là cần thiết, hướng dẫn quy trình thiết lập từng bước, khám phá cách sử dụng thực tế với các ví dụ mã và xem xét tương lai sẽ ra sao. Đến cuối cùng, bạn sẽ được trang bị để biến thiết bị Apple của mình thành một trung tâm AI cục bộ mạnh mẽ, hoàn toàn tương thích với các công cụ và quy trình làm việc mà bạn đã biết và yêu thích.

💡

Bạn muốn một công cụ kiểm thử API tuyệt vời tạo ra Tài liệu API đẹp mắt?

Bạn muốn một nền tảng tích hợp, tất cả trong một để Đội ngũ phát triển của bạn làm việc cùng nhau với năng suất tối đa?

Apidog đáp ứng mọi yêu cầu của bạn và thay thế Postman với mức giá hợp lý hơn nhiều!

button

Cái "Tại sao": Sức mạnh trên thiết bị gặp gỡ một tiêu chuẩn phổ quát

Để đánh giá đầy đủ ý nghĩa của dự án apple-on-device-openai, người ta phải hiểu hai lực lượng mạnh mẽ mà nó kết hợp: lợi ích của AI trên thiết bị và sự phổ biến của API OpenAI.

Cuộc cách mạng trên thiết bị: Trong nhiều năm, AI mạnh mẽ đã đồng nghĩa với các trung tâm dữ liệu khổng lồ và xử lý dựa trên đám mây. Mặc dù hiệu quả, mô hình này đi kèm với những đánh đổi cố hữu về quyền riêng tư, độ trễ và chi phí. Bằng cách chạy các mô hình cục bộ, Apple Intelligence cung cấp một giải pháp thay thế hấp dẫn:

Quyền riêng tư: Dữ liệu, lời nhắc (prompts) và cuộc hội thoại của bạn không bao giờ rời khỏi thiết bị. Chúng không được gửi đến máy chủ từ xa để xử lý, mang lại mức độ bảo mật mà các dịch vụ dựa trên đám mây đơn giản là không thể có được.
Độ trễ: Không cần phải thực hiện chuyến đi khứ hồi qua mạng, phản hồi gần như tức thời. Điều này rất quan trọng để tạo ra trải nghiệm người dùng liền mạch và phản hồi nhanh, từ tạo văn bản theo thời gian thực đến tóm tắt nhanh.
Hiệu quả chi phí: Vì việc xử lý diễn ra trên phần cứng bạn đã sở hữu, nên không có phí API, chi phí token hoặc phí đăng ký liên quan đến việc sử dụng các mô hình cơ bản.

Tình thế tiến thoái lưỡng nan của nhà phát triển: Mặc dù Apple cung cấp các API gốc để nhà phát triển tương tác với các Mô hình Nền tảng này, thực tế là một phần lớn bối cảnh phát triển AI đã được chuẩn hóa xung quanh API OpenAI. Vô số ứng dụng, công cụ dành cho nhà phát triển, thư viện và framework — từ các script đơn giản đến các hệ thống cấp doanh nghiệp phức tạp — được xây dựng để giao tiếp bằng cấu trúc yêu cầu và phản hồi cụ thể của OpenAI. Đối với một nhà phát triển, việc áp dụng một API mới, dành riêng cho nền tảng sẽ có nghĩa là viết lại một lượng lớn mã, học các mô hình mới và phân mảnh công việc của họ trên các tiêu chuẩn khác nhau.

Đây là nơi kho lưu trữ apple-on-device-openai mang lại giá trị to lớn của nó. Nó hoạt động như một lớp tương thích, một trình dịch nằm giữa thế giới nói ngôn ngữ OpenAI và AI gốc của Apple. Nó cho phép các nhà phát triển trỏ các ứng dụng hiện có của họ đến một địa chỉ máy chủ cục bộ thay vì máy chủ của OpenAI. Máy chủ cục bộ sau đó nhận yêu cầu OpenAI tiêu chuẩn, dịch nó thành một lệnh gọi mà các Mô hình Nền tảng của Apple có thể hiểu, xử lý nó trên thiết bị, và sau đó định dạng phản hồi trở lại thành cấu trúc OpenAI quen thuộc. Nó là một "sự thay thế trực tiếp" (drop-in replacement), một giải pháp liền mạch mở khóa một thế giới khả năng mà không gặp phải sự khó khăn của việc tái phát triển.

Bắt đầu: Điều kiện tiên quyết và Cài đặt

Trước khi bạn có thể biến máy Mac của mình thành máy chủ AI cục bộ, bạn cần đảm bảo hệ thống của mình đã sẵn sàng. Dự án dựa vào phần mềm beta từ Apple, nơi các mô hình chạy trên thiết bị mới này được giới thiệu.

Điều kiện tiên quyết:

macOS 26 beta (hoặc mới hơn): Đây là phiên bản hệ điều hành bao gồm các framework cần thiết và quyền truy cập vào Apple Intelligence.
Đã bật Apple Intelligence: Bạn phải bật Apple Intelligence trong cài đặt hệ thống của mình. Điều này thường được tìm thấy trong Cài đặt > Apple Intelligence & Siri.
Xcode 26 beta (hoặc mới hơn): Cần thiết nếu bạn định xây dựng dự án từ mã nguồn của nó.

Khi các điều kiện tiên quyết được đáp ứng, bạn có hai cách để cài đặt: cách đơn giản, được khuyến nghị cho hầu hết người dùng và cách xây dựng từ mã nguồn dành cho các nhà phát triển muốn kiểm tra hoặc sửa đổi mã.

Tùy chọn 1: Tải xuống ứng dụng đã được xây dựng sẵn (Khuyến nghị)

Đây là cách nhanh nhất và dễ dàng nhất để bắt đầu sử dụng.

Điều hướng đến Trang Phát hành (Releases): Tìm kho lưu trữ chính thức của dự án trên GitHub. Ở phía bên phải của trang, nhấp vào mục "Releases".
Tải xuống Phiên bản mới nhất: Tìm bản phát hành mới nhất và tải xuống tệp tài sản .zip.
Giải nén và Khởi chạy: Sau khi tải xuống, giải nén tệp và bạn sẽ tìm thấy ứng dụng. Di chuyển nó vào thư mục Ứng dụng (Applications) của bạn và khởi chạy. Thật đơn giản.

Tùy chọn 2: Xây dựng từ mã nguồn

Nếu bạn là nhà phát triển muốn xem điều kỳ diệu diễn ra như thế nào, hoặc có thể đóng góp cho dự án, bạn có thể tự xây dựng nó.

Clone Kho lưu trữ: Mở Terminal của bạn và chạy lệnh sau để tải xuống mã nguồn: Bash

git clone https://github.com/gety-ai/apple-on-device-openai.git

Điều hướng vào Thư mục: Chuyển vào thư mục dự án mới được tạo: Bash

cd apple-on-device-openai

Mở trong Xcode: Mở tệp dự án trong Xcode bằng lệnh này: Bash

open AppleOnDeviceOpenAI.xcodeproj

Xây dựng và Chạy: Trong Xcode, chỉ cần nhấp vào nút "Build and Run" (biểu tượng phát) để biên dịch và khởi chạy ứng dụng.

Lưu ý quan trọng: Tại sao lại là ứng dụng GUI?

Bạn có thể tự hỏi tại sao công cụ này là một ứng dụng giao diện người dùng đồ họa (GUI) thay vì một công cụ dòng lệnh đơn giản. Tác giả của dự án đã đưa ra một lựa chọn thiết kế rất thông minh dựa trên chính sách của Apple. Theo một Kỹ sư DTS của Apple, các ứng dụng chạy nền trước có giao diện người dùng không bị giới hạn tốc độ khi sử dụng các Mô hình Nền tảng. Tuy nhiên, các công cụ dòng lệnh thì có. Bằng cách đóng gói máy chủ vào một ứng dụng GUI, dự án đảm bảo bạn có thể thực hiện bao nhiêu yêu cầu tùy thích mà không bị điều tiết, mang lại trải nghiệm phát triển mượt mà và không bị hạn chế. Đây là một ví dụ hoàn hảo về kỹ thuật chu đáo hoạt động xung quanh các ràng buộc của nền tảng để mang lại một sản phẩm tốt hơn.

Đưa vào sử dụng: Chạy máy chủ và thực hiện các lệnh gọi API

Sau khi ứng dụng được cài đặt, giờ đây bạn đã sẵn sàng giải phóng sức mạnh của AI trên thiết bị.

1. Khởi chạy Máy chủ:

Mở ứng dụng AppleOnDeviceOpenAI.
Bạn sẽ thấy một giao diện đơn giản với các cài đặt máy chủ. Địa chỉ mặc định, 127.0.0.1:11535, rất phù hợp để kiểm thử cục bộ.
Nhấp vào nút "Start Server" (Bắt đầu Máy chủ).

Vậy là xong. Một máy chủ hiện đang chạy ngầm trên máy của bạn, sẵn sàng chấp nhận các yêu cầu API tương thích với OpenAI. Ứng dụng cũng cung cấp kiểm tra trạng thái để xác nhận rằng các mô hình Apple Intelligence khả dụng và sẵn sàng trên hệ thống của bạn.

2. Hiểu về các Điểm cuối (Endpoints):

Máy chủ hiển thị một số điểm cuối để quản lý và tương tác:

GET /health: Kiểm tra trạng thái đơn giản để xem máy chủ có đang chạy không.
GET /status: Cung cấp tính khả dụng và trạng thái của các mô hình trên thiết bị.
GET /v1/models: Liệt kê các mô hình khả dụng. Trong trường hợp này, nó sẽ trả về mã định danh mô hình chính, "apple-on-device".
POST /v1/chat/completions: Đây là điểm chính. Nó là điểm cuối phản chiếu API hoàn thành trò chuyện (chat completion) của OpenAI để tạo văn bản.

3. Các Ví dụ Thực tế:

Hãy xem cách tương tác với máy chủ. Các ví dụ sau đây giả định máy chủ của bạn đang chạy ở địa chỉ mặc định.

Sử dụng curl (Dòng lệnh)

Để kiểm tra nhanh từ terminal của bạn, bạn có thể sử dụng lệnh curl. Lệnh này gửi yêu cầu HTTP trực tiếp đến máy chủ.Bash

curl -X POST http://127.0.0.1:11535/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "apple-on-device",
    "messages": [
      {"role": "user", "content": "Explain the importance of on-device AI in 3 points."}
    ],
    "temperature": 0.7,
    "stream": false
  }'

Hãy phân tích điều này:

URL trỏ đến điểm cuối hoàn thành trò chuyện cục bộ.
Cờ -H đặt tiêu đề, cho máy chủ biết chúng ta đang gửi dữ liệu JSON.
Cờ -d chứa tải trọng JSON với chi tiết yêu cầu:
"model": "apple-on-device": Điều này rất quan trọng. Bạn phải sử dụng mã định danh mô hình này.
"messages": Lịch sử cuộc trò chuyện.
"temperature": Kiểm soát tính sáng tạo của phản hồi.
"stream": false: Yêu cầu máy chủ gửi toàn bộ phản hồi trở lại cùng lúc.

Sử dụng Client Python của OpenAI (Dành cho Nhà phát triển)

Đây là nơi sức mạnh thực sự của khả năng tương thích tỏa sáng. Nếu bạn có bất kỳ mã Python nào sử dụng thư viện openai, bạn có thể chuyển hướng nó đến máy chủ cục bộ của mình chỉ với hai dòng mã.Python

from openai import OpenAI

# Point to your local server instead of the standard OpenAI API address
client = OpenAI(
    base_url="http://127.0.0.1:11535/v1",
    api_key="not-needed"  # API key is not required for the local server
)

print("Sending request to local Apple AI model...")

# Now, use the client exactly as you would with the OpenAI API
response = client.chat.completions.create(
    model="apple-on-device",
    messages=[
        {"role": "user", "content": "Write a short poem about a computer dreaming."}
    ],
    temperature=0.8,
    stream=True  # Enable streaming for real-time output
)

print("Response:")
# Iterate through the streaming response chunks
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

print() # for a newline at the end

Trong ví dụ này, thay đổi chính nằm ở việc khởi tạo client OpenAI(). Bằng cách đặt base_url thành máy chủ cục bộ của chúng ta và cung cấp một api_key giả, tất cả các lệnh gọi tiếp theo đến client.chat.completions.create sẽ được chuyển hướng đến mô hình trên thiết bị. Tham số stream=True minh họa khả năng của máy chủ trong việc truyền trực tiếp các token trở lại khi chúng được tạo, cho phép tạo hiệu ứng gõ máy theo thời gian thực trong các ứng dụng của bạn.

Kiểm thử và Khả năng tương thích API

Để đảm bảo mọi thứ hoạt động như mong đợi, kho lưu trữ bao gồm một script kiểm thử hữu ích. Sau khi khởi động máy chủ, bạn có thể mở terminal của mình, điều hướng đến thư mục dự án và chạy:Bash

python3 test_server.py

Script này sẽ chạy một bộ kiểm thử toàn diện, xác minh trạng thái máy chủ, tính khả dụng của mô hình, logic hội thoại nhiều lượt và cả phản hồi truyền trực tiếp (streaming) lẫn không truyền trực tiếp. Đây là một cách tuyệt vời để xác nhận thiết lập của bạn là chính xác và xem thêm các mẫu sử dụng ví dụ.

Máy chủ hỗ trợ các tham số quan trọng nhất của API Hoàn thành Trò chuyện (Chat Completions) của OpenAI:

model: Phải là "apple-on-device".
messages: Mảng các tin nhắn hội thoại.
temperature: Kiểm soát tính ngẫu nhiên (0.0 đến 2.0).
max_tokens: Số lượng token tối đa được tạo ra.
stream: Một giá trị boolean để bật hoặc tắt truyền trực tiếp (streaming).

Kết luận và Triển vọng Tương lai

Dự án apple-on-device-openai không chỉ là một đoạn mã thông minh; nó là một chất xúc tác quan trọng cho sự đổi mới. Nó dân chủ hóa quyền truy cập vào AI mạnh mẽ, riêng tư và nhanh chóng trên thiết bị của Apple, giúp nó khả dụng cho một hệ sinh thái rộng lớn gồm các nhà phát triển và ứng dụng mà không cần đường cong học tập dốc hoặc tái phát triển tốn kém. Bằng cách áp dụng tiêu chuẩn thực tế (de facto standard) của API OpenAI, nó đảm bảo rằng các công cụ, script và dịch vụ chúng ta sử dụng ngày nay có thể hưởng lợi một cách liền mạch từ AI trên thiết bị của ngày mai.

Dự án vẫn đang phát triển, với những gợi ý hấp dẫn về các khả năng trong tương lai. Tệp README đề cập đến "Sử dụng Công cụ (WIP)," cho thấy rằng khả năng gọi hàm (function calling) — khả năng mô hình AI gọi các công cụ và API bên ngoài — đang đến gần. Điều này sẽ tăng cường tiện ích của mô hình theo cấp số nhân, cho phép nó không chỉ tạo văn bản mà còn thực hiện các hành động, lấy dữ liệu trực tiếp và tương tác với các ứng dụng khác, tất cả trong khi vẫn duy trì cốt lõi bảo mật trên thiết bị của nó.

Trong một thế giới đang khao khát AI mạnh mẽ hơn, cá nhân hơn và riêng tư hơn, khả năng chạy các mô hình phức tạp cục bộ là một yếu tố thay đổi cuộc chơi. Kho lưu trữ apple-on-device-openai là minh chứng cho sức mạnh của phát triển mã nguồn mở trong việc thu hẹp khoảng cách công nghệ, cung cấp một giải pháp đơn giản nhưng sâu sắc, trao quyền cho các nhà phát triển xây dựng thế hệ ứng dụng thông minh tiếp theo.

💡

button