MiMo-7B-RL: LLM Penalaran dari Xiaomi

Tim LLM-Core Xiaomi mempersembahkan MiMo-7B-RL, menantang gagasan bahwa penalaran tingkat atas dalam AI membutuhkan model besar. Model 7 miliar parameter ini, yang secara khusus direkayasa untuk tugas matematika dan pengkodean, menunjukkan kinerja yang menyaingi model yang jauh lebih besar dan sistem khusus seperti o1-mini milik OpenAI. Pencapaian ini merupakan hasil dari strategi komprehensif yang mengoptimalkan seluruh siklus hidup model, membuktikan bahwa penalaran yang kuat dapat dibuka dalam arsitektur yang lebih efisien.

💡

Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terintegrasi, All-in-One untuk Tim Pengembang Anda agar dapat bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua kebutuhan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

tombol

Apa itu MiMo-7B

Pengembangan MiMo-7B bergantung pada keyakinan bahwa kemampuan penalaran fundamental model ditetapkan selama pra-pelatihan. Meskipun tahap fine-tuning selanjutnya penting, fondasi awal sangat krusial. Xiaomi mengidentifikasi bahwa banyak model yang lebih kecil kesulitan dengan penalaran kompleks karena pelatihan dasarnya kurang memiliki paparan yang cukup terhadap pola logis.

Untuk mengatasi hal ini, pra-pelatihan MiMo dirancang dengan cermat untuk memaksimalkan "kepadatan pola penalaran". Ini melibatkan pemrosesan data yang canggih: meningkatkan ekstraksi teks untuk menangkap struktur kompleks dalam dokumen teknis dan kode, menerapkan filter multi-dimensi untuk memusatkan contoh penalaran, dan menghasilkan dataset sintetis yang luas yang mewujudkan langkah-langkah logis dan pemecahan masalah. Strategi campuran data tiga tahap digunakan selama pra-pelatihan, memanfaatkan sekitar 25 triliun token untuk membangun model MiMo-7B-Base.

Selain itu, Xiaomi memasukkan Multiple-Token Prediction (MTP) sebagai tujuan pelatihan tambahan. Teknik ini, di mana model memprediksi beberapa token ke depan, berpotensi meningkatkan pemahaman ketergantungan kompleks dan dapat mempercepat inferensi melalui speculative decoding.

Pembelajaran Penguatan Tingkat Lanjut

Membangun di atas model MiMo-7B-SFT yang telah di-fine-tune, fase Pembelajaran Penguatan (RL) secara khusus menargetkan kemahiran matematika dan kode. Dataset berkualitas tinggi berisi 130.000 soal matematika dan kode yang dikurasi dengan cermat, semuanya dapat diverifikasi melalui pemeriksaan berbasis aturan (seperti unit test atau validasi numerik), menjadi dasar untuk pelatihan.

Untuk memastikan peningkatan kemampuan yang asli dan menghindari "reward hacking", hanya hadiah akurasi berbasis aturan yang objektif yang digunakan. Sistem "test difficulty driven code reward" yang baru diperkenalkan untuk mengatasi masalah sparse reward yang melekat dalam pembuatan kode kompleks. Alih-alih hadiah all-or-nothing, sistem ini memberikan kredit parsial untuk melewati kasus uji yang lebih mudah dalam suatu masalah, memberikan sinyal gradien yang lebih padat untuk dipelajari oleh model.

Efisiensi juga menjadi kunci. Seiring dengan peningkatan model, strategi re-sampling data mengurangi bobot masalah yang lebih mudah, memfokuskan pelatihan pada contoh yang lebih menantang. Xiaomi juga mengembangkan "Seamless Rollout Engine", infrastruktur RL yang dioptimalkan yang mengintegrasikan pembuatan berkelanjutan, perhitungan hadiah asinkron, dan penghentian dini untuk meminimalkan waktu idle GPU, menghasilkan percepatan pelatihan (2.29x) dan validasi (1.96x) yang signifikan.

Keluarga MiMo-7B-RL: Sekilas

Xiaomi telah merilis beberapa model yang menunjukkan tahap pengembangan:

Model	Deskripsi
MiMo-7B-Base	Model dasar dengan potensi penalaran bawaan yang kuat
MiMo-7B-RL-Zero	RL diterapkan langsung ke model dasar
MiMo-7B-SFT	Model Supervised Fine-Tuned dari model dasar
MiMo-7B-RL	RL diterapkan ke model SFT, kinerja penalaran terbaik

Benchmark MiMo-7B-RL

Hasil evaluasi menyoroti kekuatan MiMo-7B-RL, terutama jika dibandingkan dengan model-model terkemuka menggunakan suhu generasi 0.6.

Kinerja Komparatif:

Benchmark	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	MiMo-7B-RL
Matematika
MATH-500(Pass@1)	74.6	78.3	90.0	95.8
AIME 2024(Pass@1)	9.3	16.0	63.6	68.2
AIME 2025(Pass@1)	11.6	7.4	50.7	55.4
Kode
LiveCodeBench v5(Pass@1)	32.9	38.9	53.8	57.8
LiveCodeBench v6(Pass@1)	30.9	37.2	46.8	49.3

(Benchmark matematika/kode terpilih ditampilkan)

MiMo-7B-RL menunjukkan kinerja luar biasa dalam matematika dan pengkodean, seringkali melebihi model yang jauh lebih besar dan model penalaran khusus seperti o1-mini pada benchmark yang menantang seperti MATH, AIME, dan versi LiveCodeBench terbaru. Meskipun skor penalaran umumnya kuat untuk ukurannya, secara alami tertinggal dari model frontier terbesar, mencerminkan fokus pelatihan khususnya.

Kinerja dalam Seri MiMo:

Benchmark	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
Matematika
MATH500(Pass@1)	37.4	93.6	93.0	95.8
AIME 2024(Pass@1)	32.9	56.4	58.7	68.2
Kode
LiveCodeBench v5(Pass@1)	32.9	49.1	52.3	57.8

Perbandingan internal ini menggambarkan efektivitas setiap tahap pelatihan. Model dasar menunjukkan penalaran awal yang kuat, yang secara signifikan ditingkatkan oleh SFT, dan selanjutnya disempurnakan hingga kinerja puncak oleh fase RL terakhir yang menargetkan matematika dan kode. Menerapkan RL langsung ke dasar (RL-Zero) efektif, tetapi langkah perantara SFT tampaknya bermanfaat untuk mencapai skor tertinggi.

Menjalankan MiMo-7B-RL

Model-model ini tersedia di Hugging Face Hub.

Akses Model:

Temukan MiMo-7B-RL dan model lain dalam seri ini di halaman organisasi XiaomiMiMo di Hugging Face. Ukuran model sekitar 7.83 miliar parameter (presisi BF16, format Safetensors).

Menjalankan Inferensi dengan vLLM (Direkomendasikan)

Xiaomi merekomendasikan penggunaan fork vLLM mereka (berdasarkan v0.7.3) untuk inferensi, karena mendukung fitur Multi-Token Prediction untuk potensi generasi yang lebih cepat.

Menggunakan Xiaomi vLLM Fork (dengan MTP):

# Ensure Xiaomi's vLLM fork is installed
from vllm import LLM, SamplingParams

# --- FACTUAL CODE SNIPPET START ---
# Source: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Card
model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # Replace with your download path

llm = LLM(
    model=model_path,
    trust_remote_code=True,  # Required for MiMo's custom code
    num_speculative_tokens=1, # Enables MTP speculative decoding
    disable_log_stats=False
)
# Recommended sampling temperature for benchmark replication
sampling_params = SamplingParams(temperature=0.6)

# Example conversation structure (empty system prompt recommended)
conversation = [
    {
        "role": "system",
        "content": "" # Use an empty system prompt
    },
    {
        "role": "user",
        "content": "Write a python function to compute the nth Fibonacci number.",
    },
]

# Generate the response
outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

# Process and print output
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}")
    print("-" * 20)
    print(f"Generated text: {generated_text!r}")
# --- FACTUAL CODE SNIPPET END ---

print("=" * 80)

Menggunakan vLLM Standar (tanpa MTP):
Jika tidak menggunakan fitur MTP atau menggunakan build vLLM standar, daftarkan arsitektur MiMo terlebih dahulu menggunakan skrip register_mimo_in_vllm.py yang disediakan oleh Xiaomi.

# --- FACTUAL CODE SNIPPET START ---
# Source: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Card
# Ensure register_mimo_in_vllm.py is accessible
import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # Replace with your download path
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # Do not set num_speculative_tokens if not using MTP
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

# Conversation setup and generation call is the same as the MTP example...
conversation = [
    {"role": "system", "content": ""},
    {"role": "user", "content": "Write a python function to compute the nth Fibonacci number."},
]
outputs = llm.chat(conversation, sampling_params=sampling_params, use_tqdm=False)
# Processing output is the same...
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}\n{'-'*20}\nGenerated text: {generated_text!r}")
# --- FACTUAL CODE SNIPPET END ---

Menggunakan HuggingFace Transformers

Inferensi library transformers standar HuggingFace juga dimungkinkan. Ingat trust_remote_code=True diperlukan.

# --- FACTUAL CODE SNIPPET START ---
# Source: https://huggingface.co/XiaomiMiMo/MiMo-7B-RL Model Card
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/XiaomiMiMo/MiMo-7B-RL" # Replace with your download path

# Load the model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True, # Essential for loading MiMo
    device_map="auto"       # Use GPU if available
)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Prepare the input prompt
prompt = "Write a python function to compute the nth Fibonacci number."
# Tokenize the input
inputs = tokenizer([prompt], return_tensors='pt').to(model.device)

# Generate the output sequence
output_sequences = model.generate(
    **inputs,
    max_new_tokens=256,      # Control output length
    temperature=0.6,         # Recommended temperature
    do_sample=True           # Use sampling for temperatures != 1.0
)

# Decode the output
generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(generated_text)
# --- FACTUAL CODE SNIPPET END ---

Rekomendasi Penggunaan

Untuk hasil terbaik, terutama saat mencoba mereplikasi skor benchmark, gunakan pengaturan yang direkomendasikan: fork vLLM Xiaomi (berdasarkan v0.7.3) dan prompt sistem kosong.

Pemikiran Akhir: Penalaran Efisien Diwujudkan oleh Xiaomi?

MiMo-7B-RL Xiaomi menunjukkan bahwa kinerja penalaran yang luar biasa dalam domain khusus seperti matematika dan pengkodean dapat dicapai tanpa menggunakan ukuran model yang sangat besar. Melalui pra-pelatihan yang cermat yang berfokus pada pola penalaran dan teknik pembelajaran penguatan yang inovatif, mereka telah menciptakan model yang efisien yang bersaing secara efektif dengan rekan-rekannya yang jauh lebih besar. Rilis terbuka seri MiMo menyediakan alat dan wawasan yang berharga, mendorong pengembangan kemampuan penalaran AI yang kuat dan mudah diakses.

💡

tombol