xAI de Elon Musk ha presentado Grok-3, la última iteración de su chatbot de IA, afirmando que supera a competidores como GPT-4o de OpenAI, Gemini de Google y Claude de Anthropic en benchmarks clave. Este lanzamiento marca un salto significativo en las capacidades de razonamiento, codificación y resolución de problemas, posicionando a Grok-3 como un jugador formidable en el panorama de la IA generativa. A continuación, analizamos su rendimiento en benchmarks, la usabilidad en el mundo real y las primeras experiencias de los usuarios para evaluar si está a la altura de las expectativas.
Revisión rápida de los benchmarks de Grok-3

Grok-3 demuestra un rendimiento superior en benchmarks estandarizados en matemáticas, ciencia y codificación.
- En la competición de matemáticas AIME’24, obtuvo una puntuación de 52 (en comparación con el 48 de GPT-4o), mientras que su benchmark de ciencia (GPQA) resultó en un 75, superando significativamente a competidores como DeepSeek-V3 (68) y Claude 3.5 Sonnet (70).
- La competencia en codificación, probada a través del dataset LCB Oct-Feb, muestra que Grok-3 alcanza los 57 puntos, una ventaja notable sobre Gemini-2 Pro (49) y GPT-4o (52).
La variante ligera Grok-3 mini también impresiona, obteniendo 40, 65 y 41 en estas categorías, aún por delante de la mayoría de los modelos rivales.

En particular, Grok-3 se convirtió en la primera IA en romper el umbral de 1400 puntos en Chatbot Arena (LMSYS), una plataforma para evaluar modelos de lenguaje grandes. Su versión inicial alcanzó los 1402 puntos, superando a DeepSeek-R1 (1385) y o3-mini-high de OpenAI (1390).
Este dominio se extiende a tareas especializadas como consultas de contexto largo, diálogos de múltiples turnos y seguimiento de instrucciones, donde Grok-3 se clasifica consistentemente en primer lugar.
¿Dónde puedes usar Grok-3 ahora?
Grok 3 ahora está disponible para todos los suscriptores Premium+ en X de forma gratuita.

¿Qué tan bueno es Grok-3, en realidad?
1. ¿Qué tan bueno es Grok-3 para pensar?
El modo "Think" de Grok-3 muestra capacidades de razonamiento avanzadas, resolviendo problemas complejos que bloquean a otros modelos. Por ejemplo:
- ✅ Diseño de juegos de mesa: Cuando se le pidió que creara una página web de cuadrícula hexagonal al estilo de Settlers of Catan con ajustes de anillo dinámicos a través de un control deslizante, Grok-3 generó código HTML/JavaScript funcional, una tarea fallida por DeepSeek-R1 y Gemini 2.0 Flash Thinking. o1-pro de OpenAI (nivel de $200/mes) también tuvo éxito, pero Grok-3 igualó su rendimiento a una fracción del costo.
- ✅ Análisis de Tic-Tac-Toe: El modelo resolvió correctamente tableros básicos de tic-tac-toe y generó estados de juego válidos. Sin embargo, cuando se le desafió a crear tableros "difíciles", produjo diseños sin sentido, un fallo compartido por o1-pro, destacando una limitación común de LLM en la generación de estrategias abstractas.
- ❌ Puzzle de misterio de emojis: Grok-3 tuvo problemas para decodificar un mensaje oculto en selectores de variación de Unicode, incluso con pistas de código Rust. DeepSeek-R1 resolvió parcialmente esta tarea, lo que sugiere margen de mejora en el razonamiento criptográfico.
- ✅ Estimación computacional: Al estimar los FLOPs de entrenamiento de GPT-2, una tarea que requiere la extrapolación del recuento de tokens y matemáticas, Grok-3 con el modo "Think" entregó cálculos precisos (~1e21 FLOPs). GPT-4o falló por completo en esto, mientras que o1-pro produjo resultados inconsistentes.
Una característica destacada es la voluntad de Grok-3 de abordar problemas no resueltos. A diferencia de Claude o Gemini, que descartan inmediatamente la Hipótesis de Riemann como algo que está más allá de su alcance, Grok-3 intenta valientemente un razonamiento paso a paso antes de admitir limitaciones, un rasgo compartido con DeepSeek-R1.
2. Probando la investigación profunda con Grok-3
La función DeepSearch combina la investigación web con el razonamiento estructurado, similar a Deep Research de OpenAI y DeepResearch de Perplexity. Las primeras pruebas revelan:
- ✅ Eventos actuales: Consultas como "¿Qué pasa con el próximo lanzamiento de Apple? ¿Algún rumor?" produjo respuestas detalladas y respaldadas por citas sobre las gafas AR especuladas y las características de iOS 19.
- ✅ Consultas de nicho: "¿Qué pasta de dientes usa Bryan Johnson?" devolvió respuestas precisas (productos a base de hidroxiapatita), aunque las fuentes no siempre se citaron.
- ❌ Limitaciones de la cultura pop: "El elenco de Singles Inferno Temporada 4: ¿Dónde están ahora?" condujo a alucinaciones, incluyendo afirmaciones falsas sobre las relaciones del elenco. Del mismo modo, las preguntas sobre las preferencias de Simon Willison sobre la conversión de voz a texto obtuvieron respuestas incompletas.
Si bien DeepSearch coincide con Perplexity en amplitud, se queda atrás de la oferta de OpenAI en confiabilidad. Las URL alucinadas y las autorreferencias omitidas (por ejemplo, excluir a xAI de una lista de los principales laboratorios de LLM) subrayan las necesidades de refinamiento en curso.
3. Probando casos límite y consultas "Gotcha"
El rendimiento de Grok-3 en puzzles peculiares y fáciles para los humanos revela tanto fortalezas como peculiaridades:
- ✅ Desafíos lingüísticos: Identificó correctamente tres "r" en "strawberry" pero inicialmente contó mal las "L" en "LOLLAPALOOZA". Habilitar el modo "Think" solucionó esto.
- ✅ Comparación numérica: El modelo inicialmente afirmó que 9.11 > 9.9, un error común de LLM, pero se autocorrigió con el razonamiento activado.
- ✅ Puzzles familiares: Resolvió "Sally tiene 3 hermanos; cada hermano tiene 2 hermanas. ¿Cuántas hermanas tiene Sally?" al instante, a diferencia de GPT-4o, que a menudo responde incorrectamente.
- ❌ Generación de humor: Chistes como "¿Por qué el pollo se unió a una banda? ¡Para ser una cluck-star!" reflejan problemas persistentes de colapso de modo, con o sin el modo "Think".
- ❌ Sensibilidad ética: Cuando se le preguntó si la asignación incorrecta de género podría justificarse para salvar vidas, Grok-3 recurrió a una negativa verbosa, un contraste con los marcos éticos concisos de Claude.
- ❌ Generación de SVG: Las solicitudes de un "pelícano montando una bicicleta" SVG produjeron extremidades y ruedas inconexas, aunque las salidas de Claude siguen siendo superiores en este nicho.
Resumen: El lugar de Grok-3 en el panorama de la IA
Grok-3 representa un cambio sísmico en la velocidad de desarrollo de la IA. Lanzado solo 17 meses después de su predecesor, iguala o supera a los modelos de última generación como o1-pro en razonamiento y codificación, al tiempo que reduce sus precios. Las conclusiones clave incluyen:
- Dominio de benchmarks: Las puntuaciones sin precedentes en benchmarks de matemáticas, ciencia y codificación posicionan a Grok-3 como líder en capacidad bruta.
- Utilidad práctica: Las fortalezas en la estimación computacional, la generación de código y la resolución de problemas complejos lo convierten en una herramienta poderosa para desarrolladores e investigadores.
- Margen de crecimiento: Las alucinaciones en DeepSearch y las inconsistencias en las respuestas de humor/ética resaltan las áreas que necesitan refinamiento.
Con xAI planeando abrir el código fuente de Grok-2 y expandir las capacidades de voz y agente de Grok-3, el modelo está preparado para remodelar industrias desde los juegos hasta la investigación científica. Si bien no es perfecto, su rápido ascenso señala una nueva era de competencia en la IA generativa, una en la que la agilidad y el poder computacional redefinen lo que es posible.
