MetaStone AI'nin 1 Ağustos 2025'te piyasaya sürülen **XBai o4**'ü, karmaşık akıl yürütme görevlerinde **OpenAI-o3-mini**'den daha iyi performans gösteren dördüncü nesil açık kaynaklı bir dil modelidir. Çin'de geliştirilen bu model, yapay zeka geliştirmede çığır açan gelişmiş eğitim teknikleri ve optimize edilmiş çıkarım sunmaktadır. GitHub ve Hugging Face'te mevcut olan XBai o4, şeffaflığı ve işbirliğini teşvik etmektedir.
XBai o4'ün Yükselişi: Teknik Bir Genel Bakış
XBai o4, MetaStone AI tarafından geliştirilen, açık kaynaklı yapay zeka teknolojisinde ileriye doğru bir sıçramayı temsil etmektedir. Tescilli modellerin aksine, XBai o4'ün kod tabanı ve ağırlıkları GitHub ve Hugging Face'te herkese açıktır, bu da şeffaflığı ve işbirliğini teşvik eder. Özellikle, model, **Uzun-CoT Takviyeli Öğrenme** ve **Süreç Ödül Öğrenmesi**'ni entegre eden "yansıtıcı üretken form" adı verilen yeni bir eğitim yaklaşımından yararlanmaktadır. Sonuç olarak, bu birleşik çerçeve, XBai o4'ün derinlemesine akıl yürütme ve yüksek kaliteli akıl yürütme yörünge seçimi konusunda üstünlük sağlamasına olanak tanıyarak onu kendisinden önceki modellerden ve OpenAI-o3-mini gibi rakiplerinden ayırmaktadır.

Ayrıca, XBai o4, Politika Ödül Modelleri (PRM'ler) ve politika modelleri arasındaki omurga ağını paylaşarak çıkarım verimliliğini optimize eder. Bu mimari seçim, PRM'lerin çıkarım maliyetini %99 gibi etkileyici bir oranda azaltarak daha hızlı yanıt süreleri ve daha yüksek kaliteli çıktılar sağlar. Örneğin, modelin parametreleri iki ayrı dosyada kaydedilir: politika modeli kontrol noktası için model.safetensors
ve Hugging Face deposunda ayrıntılı olarak belirtildiği gibi SPRM başlığı için ayrı bir dosya.
Yansıtıcı Üretken Formu Anlamak
XBai o4'ün başarısının temel taşı, yansıtıcı üretken formunda yatmaktadır. Bu eğitim paradigması iki gelişmiş tekniği birleştirir:
- **Uzun-CoT Takviyeli Öğrenme**: Bu yöntem, genişletilmiş bağlamlarda modelin akıl yürütme sürecini iyileştirmek için takviyeli öğrenmeyi dahil ederek Düşünce Zinciri (CoT) istemini genişletir. Sonuç olarak, XBai o4 karmaşık, çok adımlı sorunları daha yüksek doğrulukla çözebilir.
- **Süreç Ödül Öğrenmesi**: Bu yaklaşım, eğitim sırasında yüksek kaliteli akıl yürütme yörüngeleri seçtiği için modeli ödüllendirir. Sonuç olarak, XBai o4, nüanslı karar verme gerektiren görevlerde performansını artırarak en uygun akıl yürütme yollarını önceliklendirmeyi öğrenir.
Bu yöntemleri entegre ederek, XBai o4 derinlemesine akıl yürütme ve hesaplama verimliliği arasında bir denge sağlar. Ayrıca, paylaşılan omurga ağı yedekliliği en aza indirerek modelin kaliteden ödün vermeden girdileri daha hızlı işlemesini sağlar. Bu yenilik, verimli olmasına rağmen aynı düzeyde açık kaynak erişilebilirliğine ve optimize edilmiş akıl yürütme yeteneklerine sahip olmayan OpenAI-o3-mini ile karşılaştırıldığında özellikle önemlidir.
XBai o4'ü OpenAI-o3-mini ile Karşılaştırmak
OpenAI'nin daha geniş o3 serisinin kompakt bir versiyonu olan OpenAI-o3-mini, orta karmaşıklıktaki görevlerde verimlilik için tasarlanmıştır. Ancak, MetaStone AI'nin GitHub duyurusunda belirtildiği gibi, XBai o4, Orta modda OpenAI-o3-mini'yi "tamamen aştığını" iddia etmektedir.

Bu iddiayı anlamak için temel performans metriklerini inceleyelim:
- **Karmaşık Akıl Yürütme**: XBai o4'ün yansıtıcı üretken formu, matematiksel kıyaslamalar (örn. AIME24) gibi karmaşık akıl yürütme görevlerini üstün doğrulukla ele almasını sağlar. Buna karşılık, OpenAI-o3-mini, yetkin olmasına rağmen, uzun akıl yürütme zincirleri gerektiren görevlerde zorlanır.
- **Çıkarım Hızı**: PRM çıkarım maliyetlerini %99 azaltarak, XBai o4 daha hızlı yanıtlar sunar ve bu da onu gerçek zamanlı uygulamalar için ideal kılar. OpenAI-o3-mini, hız için optimize edilmiş olmasına rağmen, açık kaynak bağlamlarda bu verimlilik düzeyine ulaşamaz.
- **Açık Kaynak Erişilebilirliği**: XBai o4'ün GitHub ve Hugging Face gibi platformlarda bulunması, geliştiricilerin modeli serbestçe özelleştirmesine ve dağıtmasına olanak tanır. Tersine, OpenAI-o3-mini tescilli kalır ve araştırma ve geliştirme için uyarlanabilirliğini sınırlar.
Örneğin, MetaStone AI'nin GitHub deposunda özetlenen matematiksel kıyaslamalar için test hattı, XBai o4'ün AIME24 gibi görevleri yüksek hassasiyetle işleme yeteneğini göstermektedir. Hat, performansı değerlendirmek için score_model_queue.py
ve policy_model_queue.py
gibi betikleri kullanır ve optimize edilmiş dikkat mekanizmaları için XFORMERS gibi araçlardan yararlanır.
XBai o4'ün Teknik Uygulaması
XBai o4'ü dağıtmak için geliştiricilerin GitHub deposunda belirtildiği gibi sağlam bir kuruluma ihtiyacı vardır. Aşağıda, sağlanan talimatlara dayalı basitleştirilmiş bir kurulum kılavuzu bulunmaktadır:
Ortam Kurulumu:
- Python 3.10 ile bir Conda ortamı oluşturun:
conda create -n xbai_o4 python==3.10
. - Ortamı etkinleştirin:
conda activate xbai_o4
. - Bağımlılıkları yükleyin:
pip install -e verl
,pip install -r requirements.txt
vepip install flash_attn==2.7.4.post1
.
Eğitim ve Değerlendirme:
- Dağıtık hesaplama için Ray'i başlatın:
bash ./verl/examples/ray/run_worker_n.sh
. - Çok düğümlü eğitimi başlatın:
bash ./scripts/run_multi_node.sh
. - Matematiksel kıyaslamalar için test hattını çalıştırın:
python test/inference.py --task 'aime24' --input_file data/aime24.jsonl --output_file path/to/result
.
API Entegrasyonu:
- Hızlı değerlendirme için politika modeli API'lerini başlatın:
CUDA_VISIBLE_DEVICES=0 python test/policy_model_queue.py --model_path path/to/huggingface/model --ip '0.0.0.0' --port '8000'
. - Bu API'leri test etmek ve yönetmek için **Apidog** gibi araçları kullanın, daha büyük sistemlere sorunsuz entegrasyon sağlayın.
Bu kurulum, XBai o4'ün hem araştırma hem de üretim ortamları için esnekliğini vurgulamaktadır. Ayrıca, modelin Apidog gibi araçlarla uyumluluğu, API testini basitleştirerek geliştiricilerin uç noktaları verimli bir şekilde doğrulamasına olanak tanır.
Kıyaslama Performansı ve Değerlendirme
MetaStone AI'nin sürüm notları, XBai o4'ün AIME24 gibi matematiksel kıyaslamalarda üstün performansını vurgulamaktadır. GitHub deposunda ayrıntılı olarak belirtilen test hattı, modelin akıl yürütme yeteneklerini değerlendirmek için politika ve puan modeli API'lerinin bir kombinasyonunu kullanır. Örneğin, inference.py
betiği, aime24.jsonl
gibi girdi dosyalarını işler ve hız için birden fazla API uç noktasından yararlanarak 16 örnekle sonuçlar üretir.

Ayrıca, modelin performansı, bellek kullanımını ve hesaplama hızını optimize eden XFORMERS dikkat arka ucu tarafından artırılmıştır. Bu, GPU özellikli sistemlerde verimli işlemeyi sağlayan VLLM_ATTENTION_BACKEND=XFORMERS
yapılandırmasında özellikle belirgindir.
Buna karşılık, OpenAI-o3-mini, genel görevler için etkili olsa da, değerlendirme sürecinde aynı düzeyde şeffaflık sağlamaz. XBai o4'ün açık kaynak yapısı, araştırmacıların kıyaslamalarını incelemesine ve çoğaltmasına olanak tanıyarak performans iddialarına güveni artırır.
Topluluk Tepkisi ve Şüphecilik
Yapay zeka topluluğu, XBai o4'ün piyasaya sürülmesine heyecan ve şüphecilik karışımı bir tepki verdi. r/accelerate'deki bir Reddit gönderisi, örneğin, modelin potansiyelini vurgulamakla birlikte, Llama-4 gibi modellerle ilgili geçmiş sorunlara atıfta bulunarak kıyaslama aşırı ayarı konusunda endişeler dile getirmektedir. Bazı kullanıcılar, Qwen gibi köklü kuruluşlara kıyasla nispeten yeni bir oyuncu olan MetaStone AI'nin güvenilirliğini sorgulamaktadır. Bununla birlikte, XBai o4'ün ağırlıklarının ve kodunun açık kaynak olarak bulunması, zamanla şüpheleri ortadan kaldırabilecek bağımsız doğrulamayı teşvik etmektedir.
Örneğin, Threads'te bir kullanıcı, XBai o4'ü mlx-lm
arka ucuyla bir M4 Max üzerinde test ettiğini ve akıl yürütme görevleri için "1+1 vibe testini" geçtiğini bildirdi. Ancak, karmaşık görselleştirmeleri (örn. ters kinematik) oluşturma gibi zorluklar, iyileştirme alanları olduğunu göstermektedir.
API Testi için Apidog ile Entegrasyon
XBai o4'ü iş akışlarına entegre eden geliştiriciler için **Apidog** gibi araçlar paha biçilmezdir. Apidog, XBai o4'ün değerlendirme hattında kullanılanlar gibi API'leri test etme ve yönetme sürecini basitleştirir. `http://ip:port/score` gibi uç noktalara istek göndermek için kullanıcı dostu bir arayüz sağlayarak, Apidog geliştiricilerin karmaşık manuel yapılandırmalar olmadan model performansını doğrulamalarını sağlar. Ayrıca, ücretsiz indirme özelliği, XBai o4'ün açık kaynak felsefesiyle uyumlu olarak hem araştırmacılar hem de hobiler için erişilebilir olmasını sağlar.

Örnek olarak, bir geliştiricinin XBai o4'ün politika modeli API'sini test etmek için Apidog'u kullandığı bir senaryoyu düşünün. Uç nokta URL'sini ve parametrelerini (örn. --model_path
ve --port
) yapılandırarak, Apidog test istekleri gönderebilir ve yanıtları analiz edebilir, hata ayıklama sürecini kolaylaştırabilir. Bu entegrasyon, GitHub kurulum talimatlarında önerildiği gibi, değerlendirmeleri birden çok düğümde ölçeklendirmek için özellikle kullanışlıdır.
Açık Kaynak Yapay Zeka İçin Gelecekteki Etkiler
XBai o4'ün piyasaya sürülmesi, gelişmiş teknolojiye erişimi demokratikleştirme konusunda açık kaynaklı yapay zekanın artan önemini vurgulamaktadır. OpenAI-o3-mini gibi tescilli modellerin aksine, XBai o4 geliştiricilere modeli belirli kullanım durumları için özelleştirme ve genişletme yetkisi verir. Örneğin, yansıtıcı üretken formu bilimsel araştırma, finansal modelleme veya otomatik kod oluşturma gibi alanlara uyarlanabilir.
Ayrıca, modelin verimlilik iyileştirmeleri, kaynak kısıtlı ortamlarda büyük dil modellerinin dağıtılmasına zemin hazırlamaktadır. Çıkarım maliyetlerini azaltarak, XBai o4, sofistike yapay zekayı tüketici sınıfı donanımlarda çalıştırmayı mümkün kılarak potansiyel uygulamalarını genişletmektedir.
Ancak, zorluklar devam etmektedir. Yapay zeka topluluğunun şüpheciliği, performans iddialarını doğrulamak için titiz, şeffaf kıyaslamalara duyulan ihtiyacı vurgulamaktadır. Ayrıca, XBai o4 akıl yürütmede üstün olsa da, topluluk geri bildirimlerinde belirtildiği gibi görselleştirme yetenekleri (örn. ters kinematik) daha fazla iyileştirme gerektirmektedir.
Sonuç: XBai o4'ün Yapay Zeka Ekosistemindeki Yeri
Özetle, XBai o4, OpenAI-o3-mini'ye kıyasla üstün akıl yürütme yetenekleri ve verimlilik sunan açık kaynaklı yapay zekada önemli bir ilerlemeyi temsil etmektedir. Uzun-CoT Takviyeli Öğrenme ve Süreç Ödül Öğrenmesi'ni birleştiren yansıtıcı üretken formu, karmaşık problem çözme için yeni bir standart belirlemektedir. Ayrıca, GitHub ve Hugging Face'teki açık kaynak erişilebilirliği, işbirliğini ve yeniliği teşvik ederek onu geliştiriciler ve araştırmacılar için değerli bir kaynak haline getirmektedir.
XBai o4'ün yeteneklerini keşfetmek isteyenler için **Apidog** gibi araçlar, API'lerini test etmek ve entegre etmek için verimli bir yol sağlayarak gerçek dünya uygulamalarında sorunsuz dağıtım sağlar. Yapay zeka ortamı gelişmeye devam ederken, XBai o4, açık kaynak yeniliğinin gücüne bir kanıt olarak durmakta, tescilli modellere meydan okumakta ve yapay zekanın başarabileceklerinin sınırlarını zorlamaktadır.
