Xiaomi'nin LLM-Core Ekibi, yapay zekada üst düzey muhakemenin devasa modeller gerektirdiği fikrine meydan okuyarak MiMo-7B-RL'yi sunuyor. Matematiksel ve kodlama görevleri için özel olarak tasarlanmış bu 7 milyar parametreli model, OpenAI'nin o1-mini
gibi çok daha büyük modeller ve özel sistemlerle rekabet eden bir performans sergiliyor. Bu başarı, tüm model yaşam döngüsünü optimize eden kapsamlı bir stratejinin sonucu olup, daha verimli mimarilerde güçlü muhakemenin kilidinin açılabileceğini kanıtlıyor.
Geliştirici Ekibinizin maksimum verimlilikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?
Apidog tüm taleplerinizi karşılıyor ve Postman'in yerini çok daha uygun bir fiyata alıyor!
MiMo-7B Nedir?
MiMo-7B'nin geliştirilmesi, bir modelin temel muhakeme yeteneğinin ön eğitim sırasında oluşturulduğu inancına dayanmaktadır. Daha sonraki ince ayar aşamaları önemli olsa da, ilk temel kritik öneme sahiptir. Xiaomi, daha küçük birçok modelin karmaşık muhakeme konusunda zorlandığını, çünkü temel eğitimlerinin mantıksal desenlere yeterince maruz kalmadığını belirledi.
Buna karşı koymak için, MiMo'nun ön eğitimi "muhakeme deseni yoğunluğunu" en üst düzeye çıkarmak için titizlikle tasarlandı. Bu, sofistike veri işlemeyi içeriyordu: teknik belgelerdeki ve koddaki karmaşık yapıları yakalamak için metin çıkarma işlemini iyileştirmek, muhakeme örneklerini yoğunlaştırmak için çok boyutlu filtreler uygulamak ve mantıksal adımları ve problem çözmeyi somutlaştıran geniş sentetik veri kümeleri oluşturmak. MiMo-7B-Base modelini oluşturmak için ön eğitim sırasında yaklaşık 25 trilyon token kullanan üç aşamalı bir veri karışımı stratejisi uygulandı.
Ayrıca Xiaomi, yardımcı bir eğitim hedefi olarak Çoklu Token Tahmini (MTP) uyguladı. Modelin birkaç token öngörmesi gereken bu teknik, karmaşık bağımlılıkların anlaşılmasını potansiyel olarak artırır ve spekülatif kod çözme yoluyla çıkarımı hızlandırabilir.

Gelişmiş Pekiştirmeli Öğrenme
İnce ayarlı MiMo-7B-SFT modeli üzerine inşa edilen Pekiştirmeli Öğrenme (RL) aşaması, özellikle matematik ve kod yeterliliğini hedeflemektedir. Kural tabanlı kontroller (birim testleri veya sayısal doğrulama gibi) aracılığıyla doğrulanabilen, özenle seçilmiş 130.000 matematik ve kod probleminden oluşan yüksek kaliteli bir veri kümesi, eğitim için temel oluşturdu.
Gerçek yetenek iyileştirmesini sağlamak ve "ödül kırma"dan kaçınmak için, yalnızca nesnel, kural tabanlı doğruluk ödülleri kullanıldı. Karmaşık kod oluşturmada var olan seyrek ödül problemini ele almak için yeni bir "zorluk odaklı kod ödülü" sistemi tanıtıldı. Bu sistem, her şey ya da hiçbir şey ödülü yerine, bir problem içindeki daha kolay test durumlarını geçmek için kısmi kredi vererek, modelin öğrenmesi için daha yoğun bir gradyan sinyali sağlıyor.
Verimlilik de önemliydi. Model geliştikçe, bir veri yeniden örnekleme stratejisi daha kolay problemleri azaltarak, eğitimi daha zor örneklere odakladı. Xiaomi ayrıca, GPU boşta kalma süresini en aza indirmek için sürekli oluşturma, eşzamansız ödül hesaplaması ve erken sonlandırmayı entegre eden, optimize edilmiş bir RL altyapısı olan "Kesintisiz Uygulama Motoru" geliştirdi ve önemli eğitim (2.29x) ve doğrulama (1.96x) hızlandırmaları sağladı.
MiMo-7B-RL Ailesi: Hızlı Bir Bakış
Xiaomi, geliştirme aşamalarını sergileyen çeşitli modeller yayınladı:
Model | Açıklama |
---|---|
MiMo-7B-Base | Güçlü doğal muhakeme potansiyeline sahip temel model |
MiMo-7B-RL-Zero | Doğrudan temel modele uygulanan RL |
MiMo-7B-SFT | Temelden Denetimli İnce Ayarlı model |
MiMo-7B-RL | SFT modeline uygulanan RL, en iyi muhakeme performansı |
MiMo-7B-RL Kıyaslamaları
Değerlendirme sonuçları, özellikle 0,6 oluşturma sıcaklığı kullanılarak önde gelen modellerle karşılaştırıldığında, MiMo-7B-RL'nin güçlü yönlerini vurgulamaktadır.
Karşılaştırmalı Performans:
Kıyaslama | GPT-4o-0513 | Claude-3.5-Sonnet-1022 | OpenAI o1-mini | MiMo-7B-RL |
---|---|---|---|---|
Matematik | ||||
MATH-500(Pass@1) | 74.6 | 78.3 | 90.0 | 95.8 |
AIME 2024(Pass@1) | 9.3 | 16.0 | 63.6 | 68.2 |
AIME 2025(Pass@1) | 11.6 | 7.4 | 50.7 | 55.4 |
Kod | ||||
LiveCodeBench v5(Pass@1) | 32.9 | 38.9 | 53.8 | 57.8 |
LiveCodeBench v6(Pass@1) | 30.9 | 37.2 | 46.8 | 49.3 |
(Seçilmiş matematik/kod kıyaslamaları gösterilmektedir)
MiMo-7B-RL, matematik ve kodlamada, genellikle MATH, AIME ve son LiveCodeBench sürümleri gibi zorlu kıyaslamalarda o1-mini
gibi önemli ölçüde daha büyük modelleri ve özel muhakeme modellerini aşan olağanüstü bir performans sergiliyor. Genel muhakeme puanları boyutu için güçlü olsa da, doğal olarak en büyük sınır modellerinin gerisinde kalıyor ve özel eğitim odağını yansıtıyor.
MiMo Serisi İçindeki Performans:
Kıyaslama | MiMo-7B-Base | MiMo-7B-RL-Zero | MiMo-7B-SFT | MiMo-7B-RL |
---|---|---|---|---|
Matematik | ||||
MATH500(Pass@1) | 37.4 | 93.6 | 93.0 | 95.8 |
AIME 2024(Pass@1) | 32.9 | 56.4 | 58.7 | 68.2 |
Kod | ||||
LiveCodeBench v5(Pass@1) | 32.9 | 49.1 | 52.3 | 57.8 |
Bu dahili karşılaştırma, her eğitim aşamasının etkinliğini göstermektedir. Temel model, SFT tarafından önemli ölçüde artırılan ve matematik ve kodu hedefleyen son RL aşamasıyla en yüksek performansa kadar daha da rafine edilen güçlü bir ilk muhakeme sergiliyor. RL'nin doğrudan temele (RL-Zero
) uygulanması etkilidir, ancak SFT ara adımı en yüksek puanlara ulaşmak için faydalı görünmektedir.
MiMo-7B-RL'yi Çalıştırmak
Modeller, Hugging Face Hub'da kolayca bulunabilir.
Model Erişimi:
MiMo-7B-RL'yi ve serideki diğer modelleri Hugging Face'deki XiaomiMiMo organizasyon sayfasında bulun. Model boyutu yaklaşık 7,83 milyar parametredir (BF16 hassasiyeti, Safetensors formatı).
vLLM ile Çıkarım Çalıştırma (Önerilir)
Xiaomi, potansiyel olarak daha hızlı oluşturma için Çoklu Token Tahmini özelliğini desteklediği için çıkarım için vLLM'nin (v0.7.3'e dayalı) kendi çatalını kullanmayı önerir.
- Xiaomi vLLM Çatalını Kullanma (MTP ile):
# Xiaomi'nin vLLM çatalının yüklendiğinden emin olun
from vllm import LLM, SamplingParams
# --- GERÇEK KOD PARÇACIK BAŞLANGICI ---
# Kaynak: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Kartı
model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # İndirme yolunuzla değiştirin
llm = LLM(
model=model_path,
trust_remote_code=True, # MiMo'nun özel kodu için gerekli
num_speculative_tokens=1, # MTP spekülatif kod çözmeyi etkinleştirir
disable_log_stats=False
)
# Kıyaslama çoğaltımı için önerilen örnekleme sıcaklığı
sampling_params = SamplingParams(temperature=0.6)
# Örnek konuşma yapısı (boş sistem istemi önerilir)
conversation = [
{
"role": "system",
"content": "" # Boş bir sistem istemi kullanın
},
{
"role": "user",
"content": "Write a python function to compute the nth Fibonacci number.",
},
]
# Yanıtı oluştur
outputs = llm.chat(conversation,
sampling_params=sampling_params,
use_tqdm=False)
# Çıktıyı işleyin ve yazdırın
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}")
print("-" * 20)
print(f"Generated text: {generated_text!r}")
# --- GERÇEK KOD PARÇACIK BİTİŞİ ---
print("=" * 80)
- Standart vLLM Kullanma (MTP olmadan):
MTP özelliğini kullanmıyorsanız veya standart bir vLLM derlemesi kullanıyorsanız, önce Xiaomi tarafından sağlananregister_mimo_in_vllm.py
komut dosyasını kullanarak MiMo mimarisini kaydedin.
# --- GERÇEK KOD PARÇACIK BAŞLANGICI ---
# Kaynak: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Kartı
# register_mimo_in_vllm.py dosyasının erişilebilir olduğundan emin olun
import register_mimo_in_vllm
from vllm import LLM, SamplingParams
model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # İndirme yolunuzla değiştirin
llm = LLM(
model=model_path,
trust_remote_code=True,
# MTP kullanmıyorsanız num_speculative_tokens'ı ayarlamayın
disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)
# Konuşma kurulumu ve oluşturma çağrısı MTP örneğiyle aynıdır...
conversation = [
{"role": "system", "content": ""},
{"role": "user", "content": "Write a python function to compute the nth Fibonacci number."},
]
outputs = llm.chat(conversation, sampling_params=sampling_params, use_tqdm=False)
# Çıktı işleme aynıdır...
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}\n{'-'*20}\nGenerated text: {generated_text!r}")
# --- GERÇEK KOD PARÇACIK BİTİŞİ ---
HuggingFace Transformers Kullanma
Standart HuggingFace transformers
kitaplığı çıkarımı da mümkündür. trust_remote_code=True
'nun gerekli olduğunu unutmayın.
# --- GERÇEK KOD PARÇACIK BAŞLANGICI ---
# Kaynak: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Kartı
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # İndirme yolunuzla değiştirin
# Modeli ve belirteci yükleyin
model = AutoModelForCausalLM.from_pretrained(
model_path,
trust_remote_code=True, # MiMo'yu yüklemek için gerekli
device_map="auto" # Mümkünse GPU kullanın
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# Giriş istemini hazırlayın
prompt = "Write a python function to compute the nth Fibonacci number."
# Girişi belirteçlere ayırın
inputs = tokenizer([prompt], return_tensors='pt').to(model.device)
# Çıktı dizisini oluştur
output_sequences = model.generate(
**inputs,
max_new_tokens=256, # Çıktı uzunluğunu kontrol edin
temperature=0.6, # Önerilen sıcaklık
do_sample=True # Sıcaklıklar != 1.0 için örnekleme kullanın
)
# Çıktıyı kod çözün
generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(generated_text)
# --- GERÇEK KOD PARÇACIK BİTİŞİ ---
Kullanım Önerileri
En iyi sonuçlar için, özellikle kıyaslama puanlarını kopyalamaya çalışırken, önerilen kurulumu kullanın: Xiaomi'nin vLLM çatalı (v0.7.3'e dayalı) ve boş bir sistem istemi.
Son Düşünceler: Xiaomi Tarafından Gerçekleştirilen Verimli Muhakeme mi?
Xiaomi'nin MiMo-7B-RL'si, matematik ve kodlama gibi özel alanlarda olağanüstü muhakeme performansının, devasa model boyutlarına başvurmadan elde edilebilir olduğunu göstermektedir. Muhakeme desenlerine odaklanan dikkatli bir ön eğitim ve yenilikçi pekiştirmeli öğrenme teknikleri sayesinde, çok daha büyük emsallerle etkili bir şekilde rekabet eden verimli bir model oluşturdular. MiMo serisinin açık yayımı, güçlü, erişilebilir yapay zeka muhakeme yeteneklerinin geliştirilmesini ileriye taşıyan değerli araçlar ve içgörüler sunmaktadır.
Geliştirici Ekibinizin maksimum verimlilikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?
Apidog tüm taleplerinizi karşılıyor ve Postman'in yerini çok daha uygun bir fiyata alıyor!