A xAI de Elon Musk revelou o Grok-3, a mais recente iteração de seu chatbot de IA, afirmando que supera concorrentes como GPT-4o da OpenAI, Gemini do Google e Claude da Anthropic em benchmarks-chave. Este lançamento marca um salto significativo nas capacidades de raciocínio, programação e solução de problemas, posicionando o Grok-3 como um concorrente formidável no cenário de IA generativa. Abaixo, analisamos seu desempenho em benchmarks, usabilidade no mundo real e experiências iniciais de usuários para avaliar se ele corresponde à expectativa.
Revisão Rápida dos Benchmarks do Grok-3

O Grok-3 demonstra desempenho superior em benchmarks padronizados em matemática, ciência e programação.
- No concurso de matemática AIME’24, ele obteve 52 (comparado a 48 do GPT-4o), enquanto seu resultado em benchmark de ciência (GPQA) foi de 75, superando significativamente concorrentes como DeepSeek-V3 (68) e Claude 3.5 Sonnet (70).
- A proficiência em programação, testada através do conjunto de dados LCB Oct-Feb, mostra Grok-3 alcançando 57 pontos, uma vantagem considerável sobre Gemini-2 Pro (49) e GPT-4o (52).
A variante leve Grok-3 mini também impressiona, marcando 40, 65 e 41 nessas categorias—ainda à frente da maioria dos modelos rivais.

Notavelmente, o Grok-3 se tornou a primeira IA a ultrapassar o limite de 1400 pontos na Arena de Chatbots (LMSYS), uma plataforma para avaliar modelos de linguagem grandes. Sua versão inicial atingiu 1402 pontos, superando DeepSeek-R1 (1385) e o3-mini-high da OpenAI (1390).
Essa dominância se estende a tarefas especializadas como consultas de longo contexto, diálogos de múltiplas etapas e seguimento de instruções, onde o Grok-3 consistentemente ocupa o primeiro lugar.
Onde Você Pode Usar o Grok-3 Agora?
O Grok 3 agora está disponível para todos os assinantes Premium+ no X gratuitamente.

Quão Bom É o Grok-3, Na Verdade?
1. Quão Bom É o Grok-3 em Pensar?
O modo "Pensar" do Grok-3 exibe capacidades avançadas de raciocínio, resolvendo problemas complexos que frustram outros modelos. Por exemplo:
- ✅ Design de Jogos de Tabuleiro: Quando solicitado a criar uma página da web com uma grade hexagonal estilo Catan com ajustes dinâmicos via um controle deslizante, o Grok-3 gerou código HTML/JavaScript funcional—uma tarefa falhada pelo DeepSeek-R1 e Gemini 2.0 Flash Thinking. O o1-pro da OpenAI ($200/mês) também teve sucesso, mas o Grok-3 igualou seu desempenho a uma fração do custo.
- ✅ Análise de Jogo da Velha: O modelo resolveu corretamente tabuleiros básicos de jogo da velha e gerou estados de jogo válidos. Contudo, quando desafiado a criar tabuleiros "complicados", produziu disposições sem sentido—uma falha compartilhada com o o1-pro, destacando uma limitação comum dos LLMs na geração de estratégias abstratas.
- ❌ Quebra-Cabeça de Emoji: O Grok-3 teve dificuldades para decifrar uma mensagem oculta em seletores de variação Unicode, mesmo com dicas de código Rust. O DeepSeek-R1 resolveu parcialmente essa tarefa, sugerindo espaço para melhorias em raciocínio criptográfico.
- ✅ Estimativa Computacional: Ao estimar os FLOPs de treinamento do GPT-2—uma tarefa que requer extrapolação de contagem de tokens e matemática—o Grok-3 no modo "Pensar" forneceu cálculos precisos (~1e21 FLOPs). O GPT-4o falhou completamente nesta tarefa, enquanto o o1-pro produziu resultados inconsistentes.
Uma característica marcante é a disposição do Grok-3 em enfrentar problemas não resolvidos. Ao contrário de Claude ou Gemini, que imediatamente descartam a Hipótese de Riemann como além de sua capacidade, o Grok-3 corajosamente tenta raciocínio passo a passo antes de conceder limitações—uma característica compartilhada com DeepSeek-R1.
2. Experimentos de Pesquisa Profunda com Grok-3
A funcionalidade DeepSearch combina pesquisa na web com raciocínio estruturado, semelhante ao Deep Research da OpenAI e ao DeepResearch da Perplexity. Testes iniciais revelam:
- ✅ Eventos Atuais: Consultas como "O que está acontecendo com o próximo lançamento da Apple? Alguma notícia?" resultaram em respostas detalhadas, respaldadas por citações sobre especulações sobre óculos AR e recursos do iOS 19.
- ✅ Consultas de Nicho: "Qual creme dental Bryan Johnson usa?" retornou respostas precisas (produtos à base de hidroxiapatita), embora as fontes nem sempre tenham sido citadas.
- ❌ Limitações da Cultura Pop: "Elenco da temporada 4 de Singles Inferno: onde estão agora?" levou a alucinações, incluindo afirmações falsas sobre relacionamentos do elenco. Da mesma forma, perguntas sobre as preferências de conversão de fala para texto de Simon Willison resultaram em respostas incompletas.
Enquanto o DeepSearch iguala a Perplexity em abrangência, ele fica atrás da oferta da OpenAI em confiabilidade. URLs alucinatórias e referências auto-omitidas (por exemplo, excluindo xAI de uma lista de principais laboratórios de LLM) destacam a necessidade contínua de refinamento.
3. Testando Casos Limites e Consultas Surpresa
O desempenho do Grok-3 em quebra-cabeças peculiares, fáceis para humanos, revela tanto forças quanto peculiaridades:
- ✅ Desafios Linguísticos: Ele identificou corretamente três "r"s em "morango", mas inicialmente contou errado os "L"s em "LOLLAPALOOZA". Habilitar o modo "Pensar" corrigiu isso.
- ✅ Comparação Numérica: O modelo inicialmente afirmou 9.11 > 9.9—um erro comum de LLM—mas se autocorrigiu com o raciocínio ativado.
- ✅ Quebra-Cabeças Familiares: Resolveu "Sally tem 3 irmãos; cada irmão tem 2 irmãs. Quantas irmãs Sally tem?" instantaneamente, ao contrário do GPT-4o, que frequentemente responde incorretamente.
- ❌ Geração de Humor: Piadas como "Por que a galinha entrou em uma banda? Para ser uma estrela do cluck!" refletem problemas persistentes de colapso de modo, com ou sem o modo "Pensar".
- ❌ Sensibilidade Ética: Quando perguntado se a falta de gênero poderia ser justificada para salvar vidas, o Grok-3 defaultou para uma recusa verbose—um contraste com as estruturas éticas concisas do Claude.
- ❌ Geração de SVG: Pedidos por um SVG de "pelicano montando uma bicicleta" produziram membros e rodas desconexas, embora as saídas do Claude continuem superiores neste nicho.
Resumo: O Lugar do Grok-3 no Cenário da IA
O Grok-3 representa uma mudança sísmica na velocidade de desenvolvimento da IA. Lançado apenas 17 meses após seu predecessor, ele iguala ou supera modelos de ponta como o o1-pro em raciocínio e programação, enquanto reduz seus preços. Os principais pontos a serem destacados incluem:
- Dominância em Benchmark: Pontuações sem precedentes em matemática, ciência e benchmarks de programação posicionam o Grok-3 como um líder em capacidade bruta.
- Utilidade Prática: Forças em estimativas computacionais, geração de código e resolução de problemas complexos fazem dele uma ferramenta poderosa para desenvolvedores e pesquisadores.
- Espaço para Crescimento: Alucinações no DeepSearch e inconsistências nas respostas de humor/ética destacam áreas que precisam de refinamento.
Com a xAI planejando tornar o Grok-2 de código aberto e expandir as capacidades de voz e agente do Grok-3, o modelo está pronto para transformar indústrias, desde jogos até pesquisa científica. Embora não seja perfeito, sua ascensão rápida sinaliza uma nova era de competição em IA generativa—uma onde agilidade e poder computacional redefinirão o que é possível.