Grok-3는 얼마나 좋은가? Grok-3는 어디에 사용할 수 있는가?

엘론 머스크의 xAI가 AI 챗봇의 최신 버전인 Grok-3를 공개하며, 이 챗봇이 OpenAI의 GPT-4o, Google의 Gemini, Anthropic의 Claude보다 핵심 벤치마크에서 뛰어나다고 주장하고 있습니다. 이번 출시로 인해 추론, 코딩 및 문제 해결 능력에서 상당한 발전이 이루어져 Grok-3가 생성적 AI 분야에서 강력한 플레이어로 자리 잡게 되었습니다. 아래에서는 그 벤치마크 성능, 실제 사용성 및 초기 사용자 경험을 분석하여 이 제품이 과대 광고에 부합하는지 평가합니다.

💡

오늘 앱독을 무료로 다운로드하세요 그리고 SSE 테스트 작업 흐름을 강화하세요. 앱독은 단순한 테스트 도구가 아니라 개발 과정을 단순하고 최적화하도록 설계되었습니다. 이제 기능, 설치 단계 및 각 도구의 실용적인 사용 사례를 비교하는 심층 튜토리얼을 시작해 봅시다.

버튼

Grok-3 벤치마크 간략 리뷰

Grok-3는 수학, 과학 및 코딩의 표준화된 벤치마크에서 우수한 성능을 보여줍니다.

AIME’24 수학 대회에서52점을 기록했으며(GPT-4o의 48점 대비), 과학 벤치마크(GPQA) 결과로는 75점을 기록해 DeepSeek-V3(68) 및 Claude 3.5 Sonnet(70)보다 크게 앞섰습니다.
코딩 능력 테스트인LCB Oct-Feb 데이터셋을 통해 Grok-3는 57점을 달성하여 Gemini-2 Pro(49) 및 GPT-4o(52)를 능가했습니다.

경량형 Grok-3 미니 변형도 인상적으로, 이 카테고리에서40, 65, 41점을 기록하여 대부분의 경쟁 모델보다 앞서 있습니다.

특히, Grok-3는 대형 언어 모델을 평가하는 플랫폼인 Chatbot Arena(LMSYS)에서 1400점 이상을 처음으로 돌파한 AI가 되었습니다. 초기 버전은 1402점을 기록하며 DeepSeek-R1(1385) 및 OpenAI의 o3-mini-high(1390)를 초월했습니다.

이 지배력은 긴 컨텍스트 쿼리, 다중 턴 대화, 명령 수행과 같은 전문 작업에서도 지속적으로 1위를 차지합니다.

현재 Grok-3를 어디에서 사용할 수 있나요?

Grok-3는 현재 X에서 모든 Premium+ 가입자가 무료로 이용할 수 있습니다.

Grok-3는 실제로 얼마나 우수한가요?

1. Grok-3는 사고하는 데 얼마나 우수한가요?

Grok-3의 "Think" 모드는 복잡한 문제를 해결하며 다른 모델이 막히는 고급 추론 능력을 보여줍니다. 예를 들어:

✅ 보드 게임 디자인: Settlers of Catan 스타일의 육각형 그리드 웹페이지를 슬라이더를 통한 동적 링 조정 기능을 포함하여 만들도록 요청하였을 때, Grok-3는 기능적인 HTML/JavaScript 코드를 생성했습니다. DeepSeek-R1 및 Gemini 2.0 Flash Thinking은 이 작업에 실패했습니다. OpenAI의 o1-pro($200/월 요금제)도 성공했지만, Grok-3는 그 성능을 매우 저렴한 비용으로 맞췄습니다.
✅ 틱택토 분석: 이 모델은 기본 틱택토 보드를 정확히 해결하고 유효한 게임 상태를 생성했습니다. 그러나 "복잡한" 보드를 만들도록 요청했을 때는 비논리적인 레이아웃을 생성하여 실패했습니다. 이는 o1-pro와 공유되는 일반적인 LLM 한계를 강조합니다.
❌ 이모지 수수께끼 퍼즐: Grok-3는 Rust 코드 힌트가 있어도 유니코드 변형 선택자에 숨겨진 메시지를 해독하는 데 어려움을 겪었습니다. DeepSeek-R1은 이 작업을 부분적으로 해결했는데, 이로 인해 암호 추론의 개선 여지가 있음을 보여줍니다.
✅ 계산 추정: GPT-2의 훈련 FLOP를 추정할 때—토큰 수 추정 및 수학이 필요한 작업—Grok-3의 "Think" 모드는 정확한 계산(~1e21 FLOPs)을 제공했습니다. GPT-4o는 이 작업을 완전히 실패했으며, o1-pro는 일관되지 않은 결과를 생성했습니다.

눈에 띄는 특징은 Grok-3가 풀리지 않은 문제를 해결하려는 의지입니다. Claude나 Gemini는 리만 가설을 자신의 범위를 넘어서로 즉시 무시하는 것과 달리, Grok-3는 한계를 인정하기 전에 단계별 추론을 시도합니다. 이는 DeepSeek-R1과 공유되는 특성입니다.

2. Grok-3로 심층 연구 시도하기

강력한DeepSearch 기능은 웹 연구와 구조화된 추론을 결합하여 OpenAI의 Deep Research 및 Perplexity의 DeepResearch와 유사합니다. 초기 테스트 결과는 다음과 같습니다:

✅ 현재 사건: "다가오는 애플 출시와 관련된 소문이 있나요?"와 같은 질문에 대해 예상되는 AR 안경 및 iOS 19 기능에 대한 상세한 인용 기반 응답이 제공되었습니다.
✅ 틈새 쿼리: "브라이언 존슨이 사용하는 치약은 무엇인가요?"에 대한 정확한 답변(하이드록시아파타이트 기반 제품)이 반환되었지만, 출처가 항상 인용되지는 않았습니다.
❌ 대중 문화의 한계: "싱글즈 인퍼노 시즌 4 출연자: 그들은 지금 어디에 있나요?"라는 질문은 출연자의 관계에 대한 잘못된 주장과 함께 환각을 초래했습니다. 또한 사이먼 윌리슨의 음성 인식 선호도에 대한 질문은 불완전한 답변을 끌어냈습니다.

DeepSearch는 폭넓이에서 Perplexity와 일치하지만, OpenAI의 제공보다 신뢰성 면에서 뒤떨어집니다. 환각된 URL 및 자기 참조 삭제(예: 주요 LLM 연구소 목록에서 xAI 제외)는 지속적인 개선 필요성을 강조합니다.

3. 엣지 케이스 및 "잡힐" 쿼리 테스트

Grok-3가 특이한 인간 친화적 퍼즐에서 보여주는 성능은 강점과 결점을 모두 드러냅니다:

✅ 언어적 도전: "strawberry"에서 세 개의 "r"을 올바르게 식별했지만, "LOLLAPALOOZA"의 "L"을 처음에 잘못 계산했습니다. "Think" 모드를 활성화하니 수정되었습니다.
✅ 수치 비교: 모델은 처음에 9.11 > 9.9라고 주장했는데, 이는 일반적인 LLM 오류입니다. 그러나 자가 수정 기능이 활성화되자 이를 정정했습니다.
✅ 가족 퍼즐: "샐리가 3명의 형제를 두고 있으며 형제마다 2명의 자매가 있다. 샐리는 몇 명의 자매가 있나요?"라는 문제를 즉시 해결했으며, 이는 종종 잘못된 답변을 내놓는 GPT-4o와는 대조적입니다.
❌ 유머 생성: "왜 닭이 밴드에 가입했을까요? 클럭스타가 되기 위해요!"와 같은 유머는 "Think" 모드가 활성화되든 아니든 지속적인 모드 붕괴 문제를 반영합니다.
❌ 윤리적 민감성: 생명을 구하기 위해 성별을 잘못 설정하는 것이 정당화될 수 있는지 물었을 때, Grok-3는 장황한 거부로 기본적으로 응답했습니다. 이는 Claude의 간결한 윤리적 프레임워크와 대조됩니다.
❌ SVG 생성: "자전거를 타고 있는 펠리컨" SVG 요청이 불연속적인 팔다리와 바퀴를 만들어내었으며, Claude의 결과는 이 분야에서 여전히 우수하게 남아 있습니다.

요약: Grok-3의 AI 분야 내 위치

Grok-3는 AI 개발 속도의 거대한 변화를 나타냅니다. 이전 모델에서 단 17개월 만에 출시되어 o1-pro와 같은 최신 모델들과 추론 및 코딩 능력에서 일치하거나 그 이상이며 가격을 저렴하게 책정했습니다. 주요 요점은 다음과 같습니다:

벤치마크 지배력: 수학, 과학 및 코딩 벤치마크에서 전례 없는 점수는 Grok-3를 능력 면에서 선두주자로 자리매김하게 합니다.
실용적 유용성: 계산 추정, 코드 생성 및 복잡한 문제 해결에서의 강점은 개발자와 연구자에게 강력한 도구가 됩니다.
성장 여지: DeepSearch에서의 환각 및 유머/윤리적 반응의 일관성 부족은 개선이 필요한 분야를 강조합니다.

xAI가 Grok-2를 오픈 소스할 계획을 세우고 Grok-3의 음성 및 에이전트 기능을 확장할 예정이기 때문에 이 모델은 게임에서 과학 연구에 이르기까지 여러 산업을 재편할 준비를 갖추고 있습니다. 완벽하지는 않지만 빠른 상승세는 생성적 AI에서의 경쟁의 새로운 시대를 알리는 신호입니다. 이 새로운 시대는 민첩성 및 계산 능력이 가능한 것을 재정의하는 시대입니다.