XBai o4: Nuevo Modelo de IA Chino Supera a OpenAI-o3-mini en Razonamiento Complejo

Ashley Innocent

Ashley Innocent

4 August 2025

XBai o4: Nuevo Modelo de IA Chino Supera a OpenAI-o3-mini en Razonamiento Complejo

El XBai o4 de MetaStone AI, lanzado el 1 de agosto de 2025, es un modelo de lenguaje de código abierto de cuarta generación que supera a OpenAI-o3-mini en tareas de razonamiento complejas. Este modelo desarrollado en China introduce técnicas de entrenamiento avanzadas e inferencia optimizada, lo que lo convierte en un punto de inflexión en el desarrollo de la IA. Disponible en GitHub y Hugging Face, XBai o4 promueve la transparencia y la colaboración.

💡
Para los desarrolladores que integran sus API, Apidog simplifica las pruebas y el despliegue con una plataforma gratuita y fácil de usar, perfecta para explorar las capacidades de XBai o4.
botón

El Auge de XBai o4: Una Visión General Técnica

XBai o4, desarrollado por MetaStone AI, representa un gran avance en la tecnología de IA de código abierto. A diferencia de los modelos propietarios, el código base y los pesos de XBai o4 están disponibles públicamente en GitHub y Hugging Face, fomentando la transparencia y la colaboración. Específicamente, el modelo aprovecha un enfoque de entrenamiento novedoso llamado "forma generativa reflexiva", que integra el Aprendizaje por Refuerzo Long-CoT y el Aprendizaje por Recompensa de Proceso. En consecuencia, este marco unificado permite a XBai o4 sobresalir en el razonamiento profundo y la selección de trayectorias de razonamiento de alta calidad, diferenciándolo de sus predecesores y competidores como OpenAI-o3-mini.



Además, XBai o4 optimiza la eficiencia de la inferencia al compartir la red troncal entre sus Modelos de Recompensa de Política (PRM) y modelos de política. Esta elección arquitectónica reduce el costo de inferencia de los PRM en un impresionante 99%, lo que resulta en tiempos de respuesta más rápidos y salidas de mayor calidad. Por ejemplo, los parámetros del modelo se guardan en dos archivos distintos: model.safetensors para el punto de control del modelo de política y un archivo separado para el cabezal SPRM, como se detalla en el repositorio de Hugging Face.

Comprendiendo la Forma Generativa Reflexiva

La piedra angular del éxito de XBai o4 reside en su forma generativa reflexiva. Este paradigma de entrenamiento combina dos técnicas avanzadas:

  1. Aprendizaje por Refuerzo Long-CoT: Este método extiende el prompting de Cadena de Pensamiento (CoT) incorporando el aprendizaje por refuerzo para refinar el proceso de razonamiento del modelo en contextos extendidos. Como resultado, XBai o4 puede abordar problemas complejos de múltiples pasos con mayor precisión.
  2. Aprendizaje por Recompensa de Proceso: Este enfoque recompensa al modelo por seleccionar trayectorias de razonamiento de alta calidad durante el entrenamiento. En consecuencia, XBai o4 aprende a priorizar rutas de razonamiento óptimas, mejorando su rendimiento en tareas que requieren una toma de decisiones matizada.

Al integrar estos métodos, XBai o4 logra un equilibrio entre el razonamiento profundo y la eficiencia computacional. Además, la red troncal compartida minimiza la redundancia, permitiendo que el modelo procese las entradas más rápido sin sacrificar la calidad. Esta innovación es particularmente significativa en comparación con OpenAI-o3-mini, que, aunque eficiente, carece del mismo nivel de accesibilidad de código abierto y capacidades de razonamiento optimizadas.

Comparando XBai o4 con OpenAI-o3-mini

OpenAI-o3-mini, una versión compacta de la serie o3 más amplia de OpenAI, está diseñado para la eficiencia en tareas de complejidad media. Sin embargo, XBai o4 afirma "superar completamente" a OpenAI-o3-mini en modo Medio, según lo declarado en el anuncio de MetaStone AI en GitHub.

Para entender esta afirmación, examinemos las métricas clave de rendimiento:

Por ejemplo, el pipeline de prueba de MetaStone AI para benchmarks matemáticos, como se describe en su repositorio de GitHub, demuestra la capacidad de XBai o4 para procesar tareas como AIME24 con alta precisión. El pipeline utiliza scripts como score_model_queue.py y policy_model_queue.py para evaluar el rendimiento, aprovechando herramientas como XFORMERS para mecanismos de atención optimizados.

Implementación Técnica de XBai o4

Para desplegar XBai o4, los desarrolladores necesitan una configuración robusta, como se describe en el repositorio de GitHub. A continuación, se presenta una guía de configuración simplificada basada en las instrucciones proporcionadas:

Configuración del Entorno:

Entrenamiento y Evaluación:

Integración de API:

Esta configuración resalta la flexibilidad de XBai o4 tanto para entornos de investigación como de producción. Además, la compatibilidad del modelo con herramientas como Apidog simplifica las pruebas de API, permitiendo a los desarrolladores validar los endpoints de manera eficiente.

Rendimiento y Evaluación de Benchmarks

Las notas de lanzamiento de MetaStone AI enfatizan el rendimiento superior de XBai o4 en benchmarks matemáticos como AIME24. El pipeline de prueba, detallado en el repositorio de GitHub, utiliza una combinación de API de modelo de política y de puntuación para evaluar las capacidades de razonamiento del modelo. Por ejemplo, el script inference.py procesa archivos de entrada como aime24.jsonl y genera resultados con 16 muestras, aprovechando múltiples endpoints de API para la velocidad.

Además, el rendimiento del modelo se mejora con el backend de atención XFORMERS, que optimiza el uso de la memoria y la velocidad de computación. Esto es particularmente evidente en la configuración VLLM_ATTENTION_BACKEND=XFORMERS, que garantiza un procesamiento eficiente en sistemas habilitados para GPU.

En contraste, OpenAI-o3-mini, aunque efectivo para tareas generales, no proporciona el mismo nivel de transparencia en su proceso de evaluación. La naturaleza de código abierto de XBai o4 permite a los investigadores examinar y replicar sus benchmarks, fomentando la confianza en sus afirmaciones de rendimiento.

Recepción de la Comunidad y Escepticismo

La comunidad de IA ha respondido con una mezcla de entusiasmo y escepticismo al lanzamiento de XBai o4. Una publicación de Reddit en r/accelerate, por ejemplo, destaca el potencial del modelo pero plantea preocupaciones sobre el sobreajuste de benchmarks, haciendo referencia a problemas pasados con modelos como Llama-4. Algunos usuarios cuestionan la credibilidad de MetaStone AI, un actor relativamente nuevo en comparación con organizaciones establecidas como Qwen. Sin embargo, la disponibilidad de código abierto de los pesos y el código de XBai o4 fomenta la verificación independiente, lo que podría disipar las dudas con el tiempo.

Por ejemplo, un usuario en Threads informó haber probado XBai o4 en un M4 Max con el backend mlx-lm, señalando que superó la "prueba de vibra 1+1" para tareas de razonamiento. Sin embargo, desafíos como la renderización de visualizaciones complejas (ej., cinemática inversa) sugieren áreas de mejora.

Integración con Apidog para Pruebas de API

Para los desarrolladores que integran XBai o4 en sus flujos de trabajo, herramientas como Apidog son invaluables. Apidog simplifica el proceso de prueba y gestión de API, como las utilizadas en el pipeline de evaluación de XBai o4. Al proporcionar una interfaz fácil de usar para enviar solicitudes a endpoints como http://ip:port/score, Apidog asegura que los desarrolladores puedan validar el rendimiento del modelo sin configuraciones manuales complejas. Además, su descarga gratuita lo hace accesible tanto para investigadores como para aficionados, alineándose con el espíritu de código abierto de XBai o4.

botón

Para ilustrar, considere un escenario en el que un desarrollador utiliza Apidog para probar la API del modelo de política de XBai o4. Al configurar la URL del endpoint y los parámetros (ej., --model_path y --port), Apidog puede enviar solicitudes de prueba y analizar las respuestas, agilizando el proceso de depuración. Esta integración es particularmente útil para escalar evaluaciones a través de múltiples nodos, como se recomienda en las instrucciones de configuración de GitHub.

Implicaciones Futuras para la IA de Código Abierto

El lanzamiento de XBai o4 subraya la creciente importancia de la IA de código abierto para democratizar el acceso a la tecnología avanzada. A diferencia de los modelos propietarios como OpenAI-o3-mini, XBai o4 permite a los desarrolladores personalizar y extender el modelo para casos de uso específicos. Por ejemplo, su forma generativa reflexiva podría adaptarse a dominios como la investigación científica, el modelado financiero o la generación automática de código.

Además, las mejoras de eficiencia del modelo abren el camino para desplegar grandes modelos de lenguaje en entornos con recursos limitados. Al reducir los costos de inferencia, XBai o4 hace factible ejecutar IA sofisticada en hardware de consumo, ampliando sus posibles aplicaciones.

Sin embargo, persisten los desafíos. El escepticismo de la comunidad de IA resalta la necesidad de un benchmarking riguroso y transparente para validar las afirmaciones de rendimiento. Además, si bien XBai o4 sobresale en el razonamiento, sus capacidades de visualización (ej., cinemática inversa) requieren un mayor refinamiento, como se señala en los comentarios de la comunidad.

Conclusión: El Lugar de XBai o4 en el Ecosistema de la IA

En resumen, XBai o4 representa un avance significativo en la IA de código abierto, ofreciendo capacidades de razonamiento y eficiencia superiores en comparación con OpenAI-o3-mini. Su forma generativa reflexiva, que combina el Aprendizaje por Refuerzo Long-CoT y el Aprendizaje por Recompensa de Proceso, establece un nuevo estándar para la resolución de problemas complejos. Además, su disponibilidad de código abierto en GitHub y Hugging Face fomenta la colaboración y la innovación, convirtiéndolo en un recurso valioso para desarrolladores e investigadores.

Para aquellos que buscan explorar las capacidades de XBai o4, herramientas como Apidog proporcionan una forma eficiente de probar e integrar sus API, asegurando un despliegue sin problemas en aplicaciones del mundo real. A medida que el panorama de la IA continúa evolucionando, XBai o4 se erige como un testimonio del poder de la innovación de código abierto, desafiando a los modelos propietarios y empujando los límites de lo que la IA puede lograr.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs