Xiaomi'den Çıkan Muhakeme Yapan LLM: MiMo-7B-RL

Xiaomi'nin LLM-Core Ekibi, yapay zekada üst düzey muhakemenin devasa modeller gerektirdiği fikrine meydan okuyarak MiMo-7B-RL'yi sunuyor. Matematiksel ve kodlama görevleri için özel olarak tasarlanmış bu 7 milyar parametreli model, OpenAI'nin o1-mini gibi çok daha büyük modeller ve özel sistemlerle rekabet eden bir performans sergiliyor. Bu başarı, tüm model yaşam döngüsünü optimize eden kapsamlı bir stratejinin sonucu olup, daha verimli mimarilerde güçlü muhakemenin kilidinin açılabileceğini kanıtlıyor.

💡

Harika bir API Dokümantasyonu üreten harika bir API Test aracı mı istiyorsunuz? Güzel API Dokümantasyonu?

Geliştirici Ekibinizin maksimum verimlilikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?

Apidog tüm taleplerinizi karşılıyor ve Postman'in yerini çok daha uygun bir fiyata alıyor!

button

MiMo-7B Nedir?

MiMo-7B'nin geliştirilmesi, bir modelin temel muhakeme yeteneğinin ön eğitim sırasında oluşturulduğu inancına dayanmaktadır. Daha sonraki ince ayar aşamaları önemli olsa da, ilk temel kritik öneme sahiptir. Xiaomi, daha küçük birçok modelin karmaşık muhakeme konusunda zorlandığını, çünkü temel eğitimlerinin mantıksal desenlere yeterince maruz kalmadığını belirledi.

Buna karşı koymak için, MiMo'nun ön eğitimi "muhakeme deseni yoğunluğunu" en üst düzeye çıkarmak için titizlikle tasarlandı. Bu, sofistike veri işlemeyi içeriyordu: teknik belgelerdeki ve koddaki karmaşık yapıları yakalamak için metin çıkarma işlemini iyileştirmek, muhakeme örneklerini yoğunlaştırmak için çok boyutlu filtreler uygulamak ve mantıksal adımları ve problem çözmeyi somutlaştıran geniş sentetik veri kümeleri oluşturmak. MiMo-7B-Base modelini oluşturmak için ön eğitim sırasında yaklaşık 25 trilyon token kullanan üç aşamalı bir veri karışımı stratejisi uygulandı.

Ayrıca Xiaomi, yardımcı bir eğitim hedefi olarak Çoklu Token Tahmini (MTP) uyguladı. Modelin birkaç token öngörmesi gereken bu teknik, karmaşık bağımlılıkların anlaşılmasını potansiyel olarak artırır ve spekülatif kod çözme yoluyla çıkarımı hızlandırabilir.

Gelişmiş Pekiştirmeli Öğrenme

İnce ayarlı MiMo-7B-SFT modeli üzerine inşa edilen Pekiştirmeli Öğrenme (RL) aşaması, özellikle matematik ve kod yeterliliğini hedeflemektedir. Kural tabanlı kontroller (birim testleri veya sayısal doğrulama gibi) aracılığıyla doğrulanabilen, özenle seçilmiş 130.000 matematik ve kod probleminden oluşan yüksek kaliteli bir veri kümesi, eğitim için temel oluşturdu.

Gerçek yetenek iyileştirmesini sağlamak ve "ödül kırma"dan kaçınmak için, yalnızca nesnel, kural tabanlı doğruluk ödülleri kullanıldı. Karmaşık kod oluşturmada var olan seyrek ödül problemini ele almak için yeni bir "zorluk odaklı kod ödülü" sistemi tanıtıldı. Bu sistem, her şey ya da hiçbir şey ödülü yerine, bir problem içindeki daha kolay test durumlarını geçmek için kısmi kredi vererek, modelin öğrenmesi için daha yoğun bir gradyan sinyali sağlıyor.

Verimlilik de önemliydi. Model geliştikçe, bir veri yeniden örnekleme stratejisi daha kolay problemleri azaltarak, eğitimi daha zor örneklere odakladı. Xiaomi ayrıca, GPU boşta kalma süresini en aza indirmek için sürekli oluşturma, eşzamansız ödül hesaplaması ve erken sonlandırmayı entegre eden, optimize edilmiş bir RL altyapısı olan "Kesintisiz Uygulama Motoru" geliştirdi ve önemli eğitim (2.29x) ve doğrulama (1.96x) hızlandırmaları sağladı.

MiMo-7B-RL Ailesi: Hızlı Bir Bakış

Xiaomi, geliştirme aşamalarını sergileyen çeşitli modeller yayınladı:

Model	Açıklama
MiMo-7B-Base	Güçlü doğal muhakeme potansiyeline sahip temel model
MiMo-7B-RL-Zero	Doğrudan temel modele uygulanan RL
MiMo-7B-SFT	Temelden Denetimli İnce Ayarlı model
MiMo-7B-RL	SFT modeline uygulanan RL, en iyi muhakeme performansı

MiMo-7B-RL Kıyaslamaları

Değerlendirme sonuçları, özellikle 0,6 oluşturma sıcaklığı kullanılarak önde gelen modellerle karşılaştırıldığında, MiMo-7B-RL'nin güçlü yönlerini vurgulamaktadır.

Karşılaştırmalı Performans:

Kıyaslama	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	MiMo-7B-RL
Matematik
MATH-500(Pass@1)	74.6	78.3	90.0	95.8
AIME 2024(Pass@1)	9.3	16.0	63.6	68.2
AIME 2025(Pass@1)	11.6	7.4	50.7	55.4
Kod
LiveCodeBench v5(Pass@1)	32.9	38.9	53.8	57.8
LiveCodeBench v6(Pass@1)	30.9	37.2	46.8	49.3

(Seçilmiş matematik/kod kıyaslamaları gösterilmektedir)

MiMo-7B-RL, matematik ve kodlamada, genellikle MATH, AIME ve son LiveCodeBench sürümleri gibi zorlu kıyaslamalarda o1-mini gibi önemli ölçüde daha büyük modelleri ve özel muhakeme modellerini aşan olağanüstü bir performans sergiliyor. Genel muhakeme puanları boyutu için güçlü olsa da, doğal olarak en büyük sınır modellerinin gerisinde kalıyor ve özel eğitim odağını yansıtıyor.

MiMo Serisi İçindeki Performans:

Kıyaslama	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
Matematik
MATH500(Pass@1)	37.4	93.6	93.0	95.8
AIME 2024(Pass@1)	32.9	56.4	58.7	68.2
Kod
LiveCodeBench v5(Pass@1)	32.9	49.1	52.3	57.8

Bu dahili karşılaştırma, her eğitim aşamasının etkinliğini göstermektedir. Temel model, SFT tarafından önemli ölçüde artırılan ve matematik ve kodu hedefleyen son RL aşamasıyla en yüksek performansa kadar daha da rafine edilen güçlü bir ilk muhakeme sergiliyor. RL'nin doğrudan temele (RL-Zero) uygulanması etkilidir, ancak SFT ara adımı en yüksek puanlara ulaşmak için faydalı görünmektedir.

MiMo-7B-RL'yi Çalıştırmak

Modeller, Hugging Face Hub'da kolayca bulunabilir.

Model Erişimi:

MiMo-7B-RL'yi ve serideki diğer modelleri Hugging Face'deki XiaomiMiMo organizasyon sayfasında bulun. Model boyutu yaklaşık 7,83 milyar parametredir (BF16 hassasiyeti, Safetensors formatı).

vLLM ile Çıkarım Çalıştırma (Önerilir)

Xiaomi, potansiyel olarak daha hızlı oluşturma için Çoklu Token Tahmini özelliğini desteklediği için çıkarım için vLLM'nin (v0.7.3'e dayalı) kendi çatalını kullanmayı önerir.

Xiaomi vLLM Çatalını Kullanma (MTP ile):

# Xiaomi'nin vLLM çatalının yüklendiğinden emin olun
from vllm import LLM, SamplingParams

# --- GERÇEK KOD PARÇACIK BAŞLANGICI ---
# Kaynak: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Kartı
model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # İndirme yolunuzla değiştirin

llm = LLM(
    model=model_path,
    trust_remote_code=True,  # MiMo'nun özel kodu için gerekli
    num_speculative_tokens=1, # MTP spekülatif kod çözmeyi etkinleştirir
    disable_log_stats=False
)
# Kıyaslama çoğaltımı için önerilen örnekleme sıcaklığı
sampling_params = SamplingParams(temperature=0.6)

# Örnek konuşma yapısı (boş sistem istemi önerilir)
conversation = [
    {
        "role": "system",
        "content": "" # Boş bir sistem istemi kullanın
    },
    {
        "role": "user",
        "content": "Write a python function to compute the nth Fibonacci number.",
    },
]

# Yanıtı oluştur
outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

# Çıktıyı işleyin ve yazdırın
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}")
    print("-" * 20)
    print(f"Generated text: {generated_text!r}")
# --- GERÇEK KOD PARÇACIK BİTİŞİ ---

print("=" * 80)

Standart vLLM Kullanma (MTP olmadan):
MTP özelliğini kullanmıyorsanız veya standart bir vLLM derlemesi kullanıyorsanız, önce Xiaomi tarafından sağlanan register_mimo_in_vllm.py komut dosyasını kullanarak MiMo mimarisini kaydedin.

# --- GERÇEK KOD PARÇACIK BAŞLANGICI ---
# Kaynak: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Kartı
# register_mimo_in_vllm.py dosyasının erişilebilir olduğundan emin olun
import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # İndirme yolunuzla değiştirin
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # MTP kullanmıyorsanız num_speculative_tokens'ı ayarlamayın
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

# Konuşma kurulumu ve oluşturma çağrısı MTP örneğiyle aynıdır...
conversation = [
    {"role": "system", "content": ""},
    {"role": "user", "content": "Write a python function to compute the nth Fibonacci number."},
]
outputs = llm.chat(conversation, sampling_params=sampling_params, use_tqdm=False)
# Çıktı işleme aynıdır...
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}\n{'-'*20}\nGenerated text: {generated_text!r}")
# --- GERÇEK KOD PARÇACIK BİTİŞİ ---

HuggingFace Transformers Kullanma

Standart HuggingFace transformers kitaplığı çıkarımı da mümkündür. trust_remote_code=True'nun gerekli olduğunu unutmayın.

# --- GERÇEK KOD PARÇACIK BAŞLANGICI ---
# Kaynak: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Kartı
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # İndirme yolunuzla değiştirin

# Modeli ve belirteci yükleyin
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True, # MiMo'yu yüklemek için gerekli
    device_map="auto"       # Mümkünse GPU kullanın
)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Giriş istemini hazırlayın
prompt = "Write a python function to compute the nth Fibonacci number."
# Girişi belirteçlere ayırın
inputs = tokenizer([prompt], return_tensors='pt').to(model.device)

# Çıktı dizisini oluştur
output_sequences = model.generate(
    **inputs,
    max_new_tokens=256,      # Çıktı uzunluğunu kontrol edin
    temperature=0.6,         # Önerilen sıcaklık
    do_sample=True           # Sıcaklıklar != 1.0 için örnekleme kullanın
)

# Çıktıyı kod çözün
generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(generated_text)
# --- GERÇEK KOD PARÇACIK BİTİŞİ ---

Kullanım Önerileri

En iyi sonuçlar için, özellikle kıyaslama puanlarını kopyalamaya çalışırken, önerilen kurulumu kullanın: Xiaomi'nin vLLM çatalı (v0.7.3'e dayalı) ve boş bir sistem istemi.

Son Düşünceler: Xiaomi Tarafından Gerçekleştirilen Verimli Muhakeme mi?

Xiaomi'nin MiMo-7B-RL'si, matematik ve kodlama gibi özel alanlarda olağanüstü muhakeme performansının, devasa model boyutlarına başvurmadan elde edilebilir olduğunu göstermektedir. Muhakeme desenlerine odaklanan dikkatli bir ön eğitim ve yenilikçi pekiştirmeli öğrenme teknikleri sayesinde, çok daha büyük emsallerle etkili bir şekilde rekabet eden verimli bir model oluşturdular. MiMo serisinin açık yayımı, güçlü, erişilebilir yapay zeka muhakeme yeteneklerinin geliştirilmesini ileriye taşıyan değerli araçlar ve içgörüler sunmaktadır.

💡

button