xAI는 Grok 4.3을 단계적으로 출시했습니다: 2026년 4월 17일 베타, 4월 30일 API 접근, 5월 6일 정식 출시. 주요 특징은 다음과 같습니다: 1,000,000 토큰 컨텍스트 창, Grok 라인 최초의 기본 비디오 입력, 상시 추론(always-on reasoning), 그리고 Grok 4.20 대비 약 40%의 가격 인하. 8개의 기존 Grok 모델은 5월 15일에 서비스가 종료되므로, grok-3 또는 grok-4 시리즈를 사용하는 모든 사용자는 이번 주에 마이그레이션을 계획해야 합니다.
이 가이드에서는 코드에서 Grok 4.3을 호출하는 방법: 엔드포인트 형태, 인증, OpenAI 호환 베이스 URL, 추론 노력(reasoning effort) 매개변수, 비디오 입력, 함수 호출, 그리고 Apidog에서의 작동하는 테스트 설정에 대해 다룹니다.
동일한 릴리스의 음성 측면은 Grok Voice를 무료로 사용하는 방법을 참조하세요. OpenAI의 주력 음성 모델과의 직접 비교는 Grok Voice 대 GPT-Realtime을 참조하세요.
요약
- Grok 4.3은 2026년 5월 6일에 정식 출시(GA)되었습니다. 8개의 기존 모델은 2026년 5월 15일에 서비스가 종료됩니다.
- 가격: 입력 토큰 100만 개당 $1.25, 출력 토큰 100만 개당 $2.50, 캐시된 입력 100만 개당 $0.20. Grok 4.20 대비 약 40% 인하.
- 100만 토큰 컨텍스트 창. 기본 비디오 입력. 상시 추론.
- 추론 노력(Reasoning effort):
low/medium/high. 기본값은medium입니다. - 엔드포인트:
https://api.x.ai/v1/chat/completions(OpenAI 호환 베이스 URL). - 처리량: 표준 티어에서 초당 약 159 토큰.
- 지능 지수 53 (Artificial Analysis), 전 세계 146개 모델 중 10위.
- Apidog를 사용하여 요청을 스크립트하고, 추론 구성을 변수로 유지하며, Grok 및 OpenAI 호환 모드 모두에서 재현합니다.
Grok 4.3의 변경 사항
대부분의 팀에 미치는 영향 순서대로 주요 업그레이드는 다음과 같습니다:
- 40% 가격 인하. 입력은 Grok 4.20 대비 37.5% 인하; 출력은 58.3% 인하. 캐시된 입력 요금은 이제 $0.20/1M으로, 안정적인 긴 시스템 프롬프트를 훨씬 저렴하게 만들 수 있는 공격적인 인하입니다.
- 100만 토큰 컨텍스트. Grok 4.20의 256k에서 증가. 중간 크기 코드베이스, 전체 실적 발표 또는 완전한 법률 계약서를 하나의 프롬프트에 담기에 충분합니다.
- 기본 비디오 입력. Grok 라인 최초. 비디오 URL을 전달하면 모델이 프레임을 기본적으로 추론합니다.
- 상시 추론. Grok 4.3은 모든 요청에 대해 기본 추론 단계를 제공합니다.
reasoning_effort매개변수는 깊이를 조절하지만, 모델은low미만으로 추론하지 않습니다. - 주요 에이전트 능력 향상. Grok 4.20 대비 GDPval-AA에서 Elo 점수 300점 향상. 도구 디스패치 및 다단계 워크플로가 눈에 띄게 더 잘 작동합니다.
지능 지수 53 (Artificial Analysis)은 Grok 4.3을 해당 가격 티어의 평균 35점보다 높게, 추적되는 146개 모델 중 10위에 올려놓습니다.
필수 사항
첫 번째 요청 전에 네 가지를 준비하세요:
- `console.x.ai`의 xAI 콘솔 계정. Grok Voice와 동일한 로그인 흐름입니다.
- API 키가 있는 유료 티어. 프로덕션에는 프로젝트 범위 키를 권장합니다.
- OpenAI SDK (Grok 4.3은 OpenAI 호환) 또는 xAI SDK. 둘 다 작동합니다.
- 터미널에 스팸을 보내지 않고 요청을 재현할 수 있는 API 클라이언트.

키를 한 번 내보냅니다:
export XAI_API_KEY="xai-..."
엔드포인트 및 인증
Grok 4.3은 xAI의 베이스 URL을 사용하여 OpenAI 호환 Chat Completions 인터페이스에서 작동합니다.
POST https://api.x.ai/v1/chat/completions
인증은 베어러 토큰입니다. 헤더는 표준입니다:
Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
OpenAI 호환성 덕분에 OpenAI Python 또는 Node SDK를 사용하고 base_url을 변경할 수 있습니다. 이는 gpt-4 또는 gpt-5에서 마이그레이션하는 대부분의 팀에게 가장 쉬운 방법입니다.
from openai import OpenAI
client = OpenAI(
api_key=os.environ["XAI_API_KEY"],
base_url="https://api.x.ai/v1",
)
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{"role": "user", "content": "GraphQL과 REST의 장단점을 세 가지 핵심으로 요약하세요."}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
xAI SDK를 선호하는 경우, 호출 형태는 동일하며 변경되는 유일한 부분은 import입니다.
요청 매개변수
Grok 4.3의 전체 매개변수 맵:
| 매개변수 | 유형 | 값 | 참고 |
|---|---|---|---|
model |
string | grok-4.3 |
필수. |
messages |
array | OpenAI 메시지 형태 | 필수. role: system / user / assistant를 지원합니다. |
reasoning_effort |
string | low, medium, high |
선택 사항. 기본값: medium. 높은 수준은 지연 시간과 출력 토큰을 증가시킵니다. |
max_tokens |
int | 1–32768 | 출력을 제한합니다. |
temperature |
float | 0.0–2.0 | 기본값 1.0. |
top_p |
float | 0.0–1.0 | 핵 샘플링. |
stream |
bool | true / false | `true`일 때 서버 전송 이벤트. |
tools |
array | OpenAI 도구 형태 | 함수 호출. |
tool_choice |
string / object | auto, none, 또는 특정 도구 |
표준 OpenAI 시맨틱. |
response_format |
object | { type: "json_object" } |
구조화된 출력. |
seed |
int | any | temperature: 0일 때 재현성을 위해. |
작동하는 curl 요청:
curl https://api.x.ai/v1/chat/completions \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-4.3",
"messages": [
{"role": "system", "content": "당신은 선임 백엔드 엔지니어입니다."},
{"role": "user", "content": "이 쿼리 계획을 검토하고 병목 현상을 표시하세요."}
],
"reasoning_effort": "high"
}'
응답은 표준 OpenAI 형태를 따릅니다: choices[].message.content와 함께 prompt_tokens, completion_tokens, reasoning_tokens, total_tokens로 분리된 usage 객체를 포함합니다.
추론 노력
세 가지 수준과 구체적인 지침:
low. 분류, 요약, 규칙 추출, 간단한 Q&A에 사용합니다. 지연 시간이 짧고 출력이 직접적입니다.medium. 기본값. 고객 서비스, 함수 호출, 데이터 분석, 단일 단계 도구 사용에 사용합니다. 대부분의 프로덕션 트래픽에 충분한 추론 깊이입니다.high. 다단계 에이전트, 장기 코드 검토, 복잡한 수학, 그리고 모델이 답변 전에 계획해야 하는 작업에 사용합니다.
상시 추론은 low 수준에서도 어느 정도의 사고를 의미합니다. 이것이 Grok 4.20 대비 사실적 정확도 향상을 이끄는 요인입니다. 추론을 완전히 피하여 비용을 절약하려고 기대하지 마십시오. 이는 내장되어 있습니다.
함수 호출
표준 OpenAI 형태가 직접 작동합니다. 도구를 선언하면 모델은 어시스턴트 메시지에 tool_calls 배열을 발행하고, 이를 실행한 다음 tool 역할 메시지로 응답합니다:
tools = [{
"type": "function",
"function": {
"name": "lookup_user",
"description": "ID로 사용자를 찾습니다.",
"parameters": {
"type": "object",
"properties": {"user_id": {"type": "string"}},
"required": ["user_id"],
},
},
}]
response = client.chat.completions.create(
model="grok-4.3",
messages=[{"role": "user", "content": "사용자 u_42를 찾아 마지막 로그인 시간을 알려주세요."}],
tools=tools,
reasoning_effort="medium",
)
tool_calls = response.choices[0].message.tool_calls
GDPval-AA에서 300 Elo 점수 향상은 실제로 여기서 나타납니다. Grok 4.3은 더 나은 도구를 선택하고, 불필요한 호출을 줄이며, 도구 오류에서 문제 없이 복구합니다. 도구 흐름을 테스트하는 경우, Apidog의 MCP 서버 테스트는 우리가 내부적으로 사용하는 재현 설정을 다룹니다.
비디오 입력
Grok 4.3은 기본 비디오 입력 기능을 갖춘 최초의 Grok 모델입니다. 콘텐츠 블록 내부에 비디오 URL을 전달합니다:
response = client.chat.completions.create(
model="grok-4.3",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "이 클립에서 무슨 일이 일어나는지 설명하고 이상 징후를 표시하세요."},
{"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}},
],
}],
)
비디오 토큰은 입력 미터에 대해 계산됩니다. 긴 클립은 컨텍스트를 빠르게 소모하므로, 비용이 중요하다면 전송 전에 다운샘플링하거나 잘라내세요. 모델은 프레임을 기본적으로 추론하므로, 수동으로 키프레임을 추출할 필요가 없습니다.
100만 토큰 컨텍스트
100만 토큰 컨텍스트 창은 벤치마크 트로피가 아닌 실제 프로덕션 도구입니다. 일반적인 패턴:
- 전체 코드베이스 코드 검토. diff, 수정된 모든 파일, lint 출력을 연결합니다. Grok에게 검토를 요청합니다.
- 장문 문서 Q&A. 200페이지 계약서를 입력하고 특정 질문을 합니다.
- 대화 기억. 개인화를 위해 한 달치 에이전트 대화를 컨텍스트에 유지합니다.
$0.20/1M의 캐시된 입력은 이를 저렴하게 만듭니다. 안정적으로 유지되는 40만 토큰 시스템 프롬프트는 새로 호출할 때 $0.50 대신 캐시된 호출당 $0.08만 소비합니다.
기존 Grok 모델에서 마이그레이션
8개의 기존 Grok 모델은 2026년 5월 15일 오후 12시(태평양 표준시)에 서비스가 종료됩니다. 이 중 하나를 사용하고 있다면, 마감일 전에 model 문자열을 grok-4.3으로 변경하세요. 대부분의 호출은 요청 형태가 변경되지 않았으므로 추가 변경 없이 작동합니다.
주의할 두 가지 사항:
- 추론 노력. 일부 기존 모델은
reasoning_effort를 허용하지 않았습니다. Grok 4.3은 항상 추론합니다. 이전 코드가 빠른 비추론 경로에 의존했다면, 지연 시간 증가를 감수하거나low를 유지하세요. - 출력 형식. Grok 4.3은 기본적으로 Grok 4.20보다 더 구조화되어 있습니다. 기존에 정규 표현식 후처리를 많이 사용했다면, 변경 전에 다시 테스트하세요.
OpenAI 라인 전체의 가격 비교는 GPT-5.5 가격을 참조하세요. 직접 비교 추론 모델은 GPT-5.5 API 사용 방법을 참조하세요.
Apidog에서 테스트하기
자신의 사용 사례에 대해 Grok 4.3을 검증하는 가장 빠른 방법:
XAI_API_KEY및BASE_URL = https://api.x.ai/v1로 Apidog 환경을 생성합니다.low,medium,high추론의 세 가지 변형으로 요청 컬렉션을 저장합니다. 동일한 프롬프트, 다른 노력 수준입니다.- 세 가지 모두 실행합니다. 응답, 지연 시간 및
usage.reasoning_tokens수를 나란히 비교합니다. - OpenAI의 베이스 URL을 가리키는 네 번째 변형을 추가하여 동일한 입력에 대해 Grok 4.3과 GPT-5.5를 비교합니다. 동일한 SDK, 다른 모델 및 베이스 URL입니다.
비교를 실행하려면 Apidog를 다운로드하세요. 공급자를 교체할 때 컬렉션이 깨끗하게 포트되며, 이것이 핵심입니다. 더 광범위한 API 테스트 전략은 QA 엔지니어를 위한 API 테스트 도구를 참조하세요.

속도 제한
xAI 콘솔의 티어 제한은 티어 1의 분당 수천 건의 요청 기준부터 엔터프라이즈 티어의 수십만 건까지 다양합니다. 구체적인 숫자는 변경될 수 있으므로 콘솔 대시보드를 확인하세요. xAI가 광고하는 초당 159 토큰 처리량은 스트림당 출력 속도이며, 총합이 아닙니다. 동시 요청은 티어 상한 내에서 선형적으로 확장됩니다.
속도 제한에 도달하면 API는 retry-after 헤더와 함께 429를 반환합니다. 표준 지수 백오프가 이를 처리합니다.
FAQ
Grok 4.3은 엔드투엔드로 OpenAI와 호환됩니까? Chat Completions의 경우 예. OpenAI SDK를 설치하고 base_url을 변경하고 model을 변경합니다. 함수 호출, 구조화된 출력 및 스트리밍은 모두 동일하게 작동합니다.
Responses API를 지원합니까? 현재 xAI 인터페이스는 Chat Completions입니다. Responses API는 OpenAI 전용입니다.
실제 컨텍스트 제한은 얼마입니까? 1,000,000 토큰입니다. 긴 입력은 $1.25/1M이라도 실제 비용이 발생합니다. 프롬프트가 안정적이라면 캐시를 적극적으로 활용하세요.
상시 추론이 지연 시간에 어떤 영향을 미칩니까? 첫 토큰 지연 시간은 비추론 모델보다 약간 높지만, Grok 4.3은 초당 약 159 토큰으로 출력을 스트리밍하므로, 엔드투엔드 응답 시간은 경쟁력 있습니다. 정확도에 민감한 워크로드에서는 이러한 절충이 가치가 있습니다.
Grok 4.3을 Grok Voice와 함께 사용할 수 있습니까? 예. 음성 에이전트(grok-voice-think-fast-1.0)는 추론할 때 내부적으로 Grok 4.3을 호출합니다. 또한 TTS 및 STT 프리미티브 위에 구축한 음성 루프에서 Grok 4.3을 직접 호출할 수도 있습니다.
5월 15일 이후에 이전 Grok 3 / Grok 4 호출은 어떻게 됩니까? 410 (모델 서비스 종료) 오류로 실패합니다. 마감일 전에 마이그레이션하세요.
Grok 4.3은 이미지 입력을 지원합니까? 예, 새로운 비디오 입력과 함께 지원합니다. OpenAI와 동일한 형태로 콘텐츠 블록에 이미지 URL을 전달합니다.
마무리
Grok 4.3은 xAI가 출시한 가장 공격적인 가격 대비 성능 향상 제품입니다. 40% 가격 인하, 100만 컨텍스트, 상시 추론, 그리고 기본 비디오 기능은 대부분의 에이전트 워크로드에서 진지한 일상 드라이버로 만듭니다. OpenAI 호환성은 마이그레이션이 재작성이 아닌 베이스 URL 변경임을 의미합니다.
가장 빠른 검증 경로: Apidog에서 세 가지 추론 변형을 스크립트하고, 실제 프롬프트를 입력한 다음, 지연 시간과 추론 토큰을 측정합니다. 5월 15일 전에 마이그레이션하세요.
