Cách sử dụng API Grok 4.3?

Ashley Innocent

Ashley Innocent

8 tháng 5 2026

Cách sử dụng API Grok 4.3?

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

xAI đã triển khai Grok 4.3 theo từng giai đoạn: phiên bản beta vào ngày 17 tháng 4 năm 2026, quyền truy cập API vào ngày 30 tháng 4, và phát hành rộng rãi hoàn chỉnh vào ngày 6 tháng 5. Điểm nhấn trực tiếp: cửa sổ ngữ cảnh 1.000.000 token, lần đầu tiên tích hợp đầu vào video gốc trên dòng Grok, khả năng suy luận luôn bật và giảm giá khoảng 40% so với Grok 4.20. Tám mô hình Grok cũ sẽ ngừng hoạt động vào ngày 15 tháng 5, vì vậy bất kỳ ai đang chạy trên dòng grok-3 hoặc grok-4 nên lên kế hoạch di chuyển trong tuần này. Hướng dẫn này bao gồm cách gọi Grok 4.3 từ mã của bạn: cấu trúc điểm cuối, xác thực, URL cơ sở tương thích OpenAI, tham số nỗ lực suy luận, đầu vào video, gọi hàm và một thiết lập thử nghiệm hoạt động trong Apidog. Đối với khía cạnh giọng nói của bản phát hành tương tự, hãy xem Cách sử dụng Grok Voice miễn phí. Để so sánh trực tiếp với mô hình giọng nói hàng đầu của OpenAI, hãy xem Grok Voice đấu với GPT-Realtime. button

TL;DR

* Grok 4.3 đã phát hành rộng rãi (GA) vào ngày 6 tháng 5 năm 2026. Tám mô hình cũ sẽ ngừng hoạt động vào ngày 15 tháng 5 năm 2026. * Giá: 1.25$ cho 1 triệu token đầu vào, 2.50$ cho 1 triệu token đầu ra, đầu vào được lưu vào bộ nhớ đệm 0.20$ cho 1 triệu. Giảm giá khoảng 40% so với Grok 4.20. * Cửa sổ ngữ cảnh 1 triệu token. Đầu vào video gốc. Suy luận luôn bật. * Nỗ lực suy luận: low / medium / high. Mặc định là medium. * Điểm cuối: https://api.x.ai/v1/chat/completions (URL cơ sở tương thích OpenAI). * Thông lượng: ~159 token/giây trên các cấp tiêu chuẩn. * Chỉ số thông minh 53 (Phân tích nhân tạo), xếp hạng thứ 10 trong số 146 mô hình toàn cầu. * Sử dụng Apidog để tạo script cho yêu cầu, giữ cấu hình suy luận dưới dạng biến và phát lại trên cả chế độ tương thích Grok và OpenAI.

Những gì đã thay đổi trong Grok 4.3

Các nâng cấp nổi bật, theo thứ tự tác động đối với hầu hết các nhóm: * Giảm giá 40%. Đầu vào giảm 37.5% so với Grok 4.20; đầu ra giảm 58.3%. Tỷ lệ đầu vào được lưu vào bộ nhớ đệm hiện là 0.20$/1M, một mức giảm giá mạnh giúp các lời nhắc hệ thống dài ổn định trở nên rẻ hơn đáng kể. * Ngữ cảnh 1 triệu token. Tăng từ 256k trên Grok 4.20. Đủ để chứa một codebase cỡ trung bình, một cuộc họp công bố thu nhập đầy đủ hoặc một hợp đồng pháp lý hoàn chỉnh trong một lời nhắc. * Đầu vào video gốc. Lần đầu tiên trên dòng Grok. Truyền một URL video và mô hình sẽ suy luận trên các khung hình một cách tự nhiên. * Suy luận luôn bật. Grok 4.3 đi kèm với một bước suy luận cơ bản trên mọi yêu cầu. Tham số reasoning_effort điều chỉnh độ sâu, nhưng mô hình không bao giờ suy luận thấp hơn low. * Lợi ích tác nhân lớn. +300 điểm Elo trên GDPval-AA so với Grok 4.20. Điều phối công cụ và quy trình làm việc đa bước hoạt động tốt hơn đáng kể. Chỉ số thông minh 53 (Phân tích nhân tạo) đặt Grok 4.3 cao hơn mức trung bình 35 cho cấp giá của nó, và đứng thứ mười trong số 146 mô hình được theo dõi.

Điều kiện tiên quyết

Trước yêu cầu đầu tiên, hãy chuẩn bị bốn điều: * Một tài khoản xAI Console tại console.x.ai. Quy trình đăng nhập tương tự như Grok Voice. * Một cấp có thể thanh toán với khóa API. Các khóa theo phạm vi dự án được khuyến nghị cho môi trường sản xuất. * OpenAI SDK (Grok 4.3 tương thích với OpenAI) hoặc xAI SDK. Cả hai đều hoạt động. * Một API client có thể phát lại các yêu cầu mà không làm đầy terminal của bạn. Xuất khóa một lần: export XAI_API_KEY="xai-..."

Điểm cuối và xác thực

Grok 4.3 xuất hiện trên giao diện Chat Completions tương thích OpenAI, với URL cơ sở của xAI. POST https://api.x.ai/v1/chat/completions Xác thực là một bearer token. Các tiêu đề là tiêu chuẩn: Authorization: Bearer $XAI_API_KEY Content-Type: application/json Khả năng tương thích với OpenAI có nghĩa là bạn có thể sử dụng OpenAI Python hoặc Node SDK và thay đổi base_url. Đó là con đường ít trở ngại nhất cho hầu hết các nhóm di chuyển từ gpt-4 hoặc gpt-5. from openai import OpenAI client = OpenAI( api_key=os.environ["XAI_API_KEY"], base_url="https://api.x.ai/v1", ) response = client.chat.completions.create( model="grok-4.3", messages=[ {"role": "user", "content": "Tóm tắt những ưu nhược điểm của GraphQL so với REST trong ba gạch đầu dòng."} ], reasoning_effort="medium", ) print(response.choices[0].message.content) Nếu bạn thích xAI SDK, cấu trúc cuộc gọi là như nhau; thay đổi duy nhất là import.

Tham số yêu cầu

Bản đồ tham số đầy đủ cho Grok 4.3: Một yêu cầu curl hoạt động: curl https://api.x.ai/v1/chat/completions \ -H "Authorization: Bearer $XAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "grok-4.3", "messages": [ {"role": "system", "content": "Bạn là một kỹ sư backend cấp cao."}, {"role": "user", "content": "Xem xét kế hoạch truy vấn này và chỉ ra nút thắt cổ chai."} ], "reasoning_effort": "high" }' Phản hồi mang cấu trúc OpenAI tiêu chuẩn: choices[].message.content, cộng với một đối tượng usage với prompt_tokens, completion_tokens, reasoning_tokenstotal_tokens được phân tách.

Nỗ lực suy luận

Ba cấp độ, với hướng dẫn cụ thể: * low. Sử dụng cho phân loại, tóm tắt, trích xuất quy tắc, Q&A đơn giản. Độ trễ ngắn, đầu ra trực tiếp. * medium. Mặc định. Sử dụng cho dịch vụ khách hàng, gọi hàm, phân tích dữ liệu, sử dụng công cụ một bước. Độ sâu suy luận đủ cho hầu hết lưu lượng sản xuất. * high. Sử dụng cho các tác nhân đa bước, đánh giá mã chuỗi dài, toán học phức tạp và các tác vụ mà mô hình cần lập kế hoạch trước khi trả lời. Suy luận luôn bật có nghĩa là ngay cả low cũng thực hiện một số suy nghĩ; đó là điều thúc đẩy sự cải thiện về độ chính xác thực tế so với Grok 4.20. Đừng mong đợi tiết kiệm tiền bằng cách tránh hoàn toàn suy luận; nó đã được tích hợp sẵn.

Gọi hàm

Cấu trúc OpenAI tiêu chuẩn hoạt động trực tiếp. Khai báo công cụ, mô hình phát ra một mảng tool_calls trên tin nhắn của trợ lý, bạn thực thi, bạn trả lời bằng một tin nhắn có vai trò tool: tools = [{ "type": "function", "function": { "name": "lookup_user", "description": "Tìm kiếm người dùng theo ID.", "parameters": { "type": "object", "properties": {"user_id": {"type": "string"}}, "required": ["user_id"], }, }, }] response = client.chat.completions.create( model="grok-4.3", messages=[{"role": "user", "content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."}], tools=tools, reasoning_effort="medium", ) tool_calls = response.choices[0].message.tool_calls Sự tăng 300 Elo trên GDPval-AA thể hiện rõ ở đây trong thực tế; Grok 4.3 chọn công cụ tốt hơn, ít cuộc gọi trùng lặp hơn và phục hồi từ lỗi công cụ mà không bị xoay vòng. Nếu bạn đang thử nghiệm các luồng công cụ, thử nghiệm máy chủ MCP trong Apidog bao gồm thiết lập phát lại mà chúng tôi sử dụng nội bộ.

Đầu vào video

Grok 4.3 là mô hình Grok đầu tiên có đầu vào video gốc. Truyền một URL video bên trong một khối nội dung: response = client.chat.completions.create( model="grok-4.3", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Mô tả những gì xảy ra trong clip này và gắn cờ bất kỳ sự bất thường nào."}, {"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}}, ], }], ) Token video được tính vào đồng hồ đo đầu vào. Các clip dài sẽ đốt ngữ cảnh nhanh chóng; lấy mẫu xuống hoặc cắt bớt trước khi bạn gửi nếu chi phí là vấn đề. Mô hình suy luận trên các khung hình một cách tự nhiên, vì vậy bạn không cần phải trích xuất các khung hình chính thủ công.

Ngữ cảnh 1 triệu token

Cửa sổ ngữ cảnh 1 triệu không phải là một danh hiệu đánh giá mà là một công cụ sản xuất thực sự. Các mẫu phổ biến: * Đánh giá mã toàn bộ codebase. Nối các diff, tất cả các tệp đã chạm và đầu ra lint. Yêu cầu Grok xem xét. * Q&A tài liệu dạng dài. Thả một hợp đồng 200 trang vào và hỏi các câu hỏi cụ thể. * Bộ nhớ cuộc trò chuyện. Giữ toàn bộ một tháng cuộc trò chuyện của tác nhân trong ngữ cảnh để cá nhân hóa. Đầu vào được lưu vào bộ nhớ đệm với giá 0.20$/1M giúp điều này trở nên phải chăng. Một lời nhắc hệ thống 400k token mà bạn giữ ổn định sẽ tiêu tốn 0.08$ cho mỗi cuộc gọi được lưu vào bộ nhớ đệm thay vì 0.50$ mới.

Di chuyển từ các mô hình Grok cũ

Tám mô hình Grok cũ sẽ ngừng hoạt động vào 12:00 PM PT, ngày 15 tháng 5 năm 2026. Nếu bạn đang chạy trên bất kỳ mô hình nào trong số đó, hãy chuyển chuỗi model sang grok-4.3 trước thời hạn. Hầu hết các cuộc gọi sẽ hoạt động mà không cần thay đổi thêm vì cấu trúc yêu cầu không thay đổi. Hai điều cần chú ý: * Nỗ lực suy luận. Một số mô hình cũ không chấp nhận reasoning_effort. Grok 4.3 luôn suy luận; nếu mã trước đây của bạn dựa vào một đường dẫn không suy luận nhanh, hãy chấp nhận tăng độ trễ hoặc giữ ở low. * Định dạng đầu ra. Grok 4.3 có cấu trúc hơn Grok 4.20 theo mặc định. Nếu bạn đã sử dụng hậu xử lý regex nặng, hãy kiểm tra lại trước khi thay đổi. Để so sánh giá đầy đủ trên dòng OpenAI, hãy xem giá GPT-5.5; đối với các mô hình suy luận đối đầu, hãy xem Cách sử dụng API GPT-5.5.

Thử nghiệm trong Apidog

Cách nhanh nhất để xác thực Grok 4.3 theo trường hợp sử dụng của riêng bạn: 1. Tạo một môi trường Apidog với XAI_API_KEYBASE_URL = https://api.x.ai/v1. 2. Lưu một bộ sưu tập yêu cầu với ba biến thể: suy luận low, medium, high. Cùng một lời nhắc, nỗ lực khác nhau. 3. Chạy cả ba. So sánh phản hồi, độ trễ và số lượng usage.reasoning_tokens cạnh nhau. 4. Thêm một biến thể thứ tư trỏ đến URL cơ sở của OpenAI để so sánh Grok 4.3 với GPT-5.5 trên cùng một đầu vào. Cùng một SDK, mô hình và URL cơ sở khác nhau. Tải Apidog để chạy so sánh. Bộ sưu tập sẽ chuyển đổi sạch sẽ khi bạn thay đổi nhà cung cấp, đó là điểm chính. Để biết chiến lược kiểm tra API rộng hơn, hãy xem công cụ kiểm tra API dành cho kỹ sư QA.

Giới hạn tỷ lệ

Giới hạn cấp trên xAI Console chạy từ mức cơ bản vài nghìn yêu cầu mỗi phút ở Cấp 1 đến hàng trăm nghìn ở các cấp doanh nghiệp. Các con số cụ thể thay đổi; hãy kiểm tra bảng điều khiển. Thông lượng 159 token/giây mà xAI quảng cáo là tốc độ đầu ra trên mỗi luồng, không phải tổng hợp; các yêu cầu đồng thời mở rộng tuyến tính trong giới hạn cấp. Nếu bạn đạt giới hạn tỷ lệ, API sẽ trả về 429 với tiêu đề retry-after. Backoff theo hàm mũ tiêu chuẩn sẽ xử lý nó.

FAQ

Grok 4.3 có tương thích hoàn toàn với OpenAI không?Đối với Chat Completions, có. Chỉ cần sử dụng OpenAI SDK, thay đổi base_url, thay đổi model. Gọi hàm, đầu ra có cấu trúc và streaming đều hoạt động y hệt. Nó có hỗ trợ Responses API không?Giao diện xAI hiện là Chat Completions. Responses API chỉ dành riêng cho OpenAI. Giới hạn ngữ cảnh thực tế là bao nhiêu?1.000.000 token. Các đầu vào dài tốn tiền thật ngay cả với 1.25$/1M; lưu vào bộ nhớ đệm mạnh mẽ nếu lời nhắc của bạn ổn định. Suy luận luôn bật ảnh hưởng đến độ trễ như thế nào?Độ trễ token đầu tiên hơi cao hơn so với các mô hình không suy luận, nhưng Grok 4.3 truyền đầu ra ở tốc độ ~159 token/giây, vì vậy thời gian phản hồi từ đầu đến cuối có tính cạnh tranh. Sự đánh đổi này đáng giá đối với các tác vụ nhạy cảm về độ chính xác. Tôi có thể sử dụng Grok 4.3 với Grok Voice không?Có. Tác nhân giọng nói (grok-voice-think-fast-1.0) gọi Grok 4.3 bên dưới khi nó suy luận. Bạn cũng có thể gọi Grok 4.3 trực tiếp từ một vòng lặp giọng nói mà bạn xây dựng trên các nguyên thủy TTS và STT. Điều gì sẽ xảy ra với các cuộc gọi Grok 3 / Grok 4 cũ của tôi sau ngày 15 tháng 5?Chúng sẽ thất bại với lỗi 410 (mô hình đã ngừng hoạt động). Vui lòng di chuyển trước thời hạn. Grok 4.3 có hỗ trợ đầu vào hình ảnh không?Có, cùng với đầu vào video mới. Truyền một URL hình ảnh trong một khối nội dung, cùng định dạng với OpenAI.

Tổng kết

Grok 4.3 là bước tiến về hiệu suất giá tích cực nhất mà xAI đã thực hiện. Việc giảm 40% giá, ngữ cảnh 1 triệu, suy luận luôn bật và video gốc cùng nhau khiến nó trở thành một công cụ hàng ngày nghiêm túc cho hầu hết các tác vụ tác nhân. Khả năng tương thích OpenAI có nghĩa là việc di chuyển chỉ là thay đổi URL cơ sở, không phải viết lại. Con đường xác thực nhanh nhất: tạo script ba biến thể suy luận trong Apidog, đưa vào các lời nhắc thực tế của bạn, đo độ trễ và token suy luận. Di chuyển trước ngày 15 tháng 5. button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API

Cách sử dụng API Grok 4.3?