xAI milik Elon Musk telah meluncurkan Grok-3, iterasi terbaru dari chatbot AI-nya, mengklaim bahwa itu melampaui pesaing seperti GPT-4o dari OpenAI, Gemini dari Google, dan Claude dari Anthropic dalam tolok ukur utama. Rilis ini menandai lompatan signifikan dalam kemampuan penalaran, pengkodean, dan pemecahan masalah, memposisikan Grok-3 sebagai pemain yang tangguh di lanskap AI generatif. Di bawah ini, kami menganalisis kinerja tolok ukurnya, kegunaan dunia nyata, dan pengalaman pengguna awal untuk menilai apakah itu sesuai dengan hype.
Tinjauan Singkat Tolok Ukur Grok-3

Grok-3 menunjukkan kinerja superior di seluruh tolok ukur standar dalam matematika, sains, dan pengkodean.
- Pada kompetisi matematika AIME’24, ia mencetak 52 (dibandingkan dengan 48 GPT-4o), sementara tolok ukur sainsnya (GPQA) menghasilkan 75 yang secara signifikan mengungguli pesaing seperti DeepSeek-V3 (68) dan Claude 3.5 Sonnet (70).
- Kemahiran pengkodean, diuji melalui dataset LCB Oct-Feb, menunjukkan Grok-3 mencapai 57 poin, keunggulan yang menonjol atas Gemini-2 Pro (49) dan GPT-4o (52).
Varian ringan Grok-3 mini juga mengesankan, mencetak 40, 65, dan 41 dalam kategori ini—masih di depan sebagian besar model saingan.

Khususnya, Grok-3 menjadi AI pertama yang menembus ambang 1400 poin di Chatbot Arena (LMSYS), sebuah platform untuk mengevaluasi model bahasa besar. Versi awalnya mencapai 1402 poin, mengungguli DeepSeek-R1 (1385) dan o3-mini-high OpenAI (1390).
Dominasi ini meluas ke tugas-tugas khusus seperti kueri konteks panjang, dialog multi-giliran, dan mengikuti instruksi, di mana Grok-3 secara konsisten menempati peringkat pertama.
Di Mana Anda Dapat Menggunakan Grok-3 Sekarang?
Grok 3 sekarang tersedia untuk semua pelanggan Premium+ di X secara gratis.

Seberapa Bagus Grok-3 Sebenarnya?
1. Seberapa Bagus Grok-3 dalam Berpikir?
Mode "Think" Grok-3 menampilkan kemampuan penalaran tingkat lanjut, memecahkan masalah kompleks yang menghalangi model lain. Misalnya:
- ✅ Desain Permainan Papan: Ketika diminta untuk membuat halaman web kisi heksagonal bergaya Settlers of Catan dengan penyesuaian cincin dinamis melalui slider, Grok-3 menghasilkan kode HTML/JavaScript fungsional—tugas yang gagal dilakukan oleh DeepSeek-R1 dan Gemini 2.0 Flash Thinking. o1-pro OpenAI (tingkat $200/bulan) juga berhasil, tetapi Grok-3 menyamai kinerjanya dengan biaya yang lebih murah.
- ✅ Analisis Tic-Tac-Toe: Model ini dengan benar memecahkan papan tic-tac-toe dasar dan menghasilkan status permainan yang valid. Namun, ketika ditantang untuk membuat papan "rumit", ia menghasilkan tata letak yang tidak masuk akal—kegagalan yang juga dialami oleh o1-pro, menyoroti keterbatasan LLM umum dalam pembuatan strategi abstrak.
- ❌ Teka-Teki Misteri Emoji: Grok-3 kesulitan mendekode pesan yang tersembunyi dalam pemilih variasi Unicode, bahkan dengan petunjuk kode Rust. DeepSeek-R1 sebagian memecahkan tugas ini, menunjukkan ruang untuk perbaikan dalam penalaran kriptografi.
- ✅ Estimasi Komputasi: Saat memperkirakan FLOP pelatihan GPT-2—tugas yang membutuhkan ekstrapolasi jumlah token dan matematika—Grok-3 dengan mode "Think" memberikan perhitungan yang akurat (~1e21 FLOP). GPT-4o gagal total dalam hal ini, sementara o1-pro menghasilkan hasil yang tidak konsisten.
Fitur yang menonjol adalah kesediaan Grok-3 untuk mengatasi masalah yang belum terpecahkan. Tidak seperti Claude atau Gemini, yang segera menolak Hipotesis Riemann sebagai di luar jangkauan mereka, Grok-3 dengan berani mencoba penalaran langkah demi langkah sebelum mengakui keterbatasan—sifat yang sama dengan DeepSeek-R1.
2. Mencoba Riset Mendalam dengan Grok-3
Fitur DeepSearch menggabungkan riset web dengan penalaran terstruktur, mirip dengan Deep Research OpenAI dan DeepResearch Perplexity. Tes awal mengungkapkan:
- ✅ Peristiwa Terkini: Kueri seperti "Ada apa dengan Peluncuran Apple yang akan datang? Ada rumor?" menghasilkan respons terperinci yang didukung kutipan tentang spekulasi kacamata AR dan fitur iOS 19.
- ✅ Kueri Niche: "Pasta gigi apa yang digunakan Bryan Johnson?" mengembalikan jawaban yang tepat (produk berbasis Hydroxyapatite), meskipun sumber tidak selalu dikutip.
- ❌ Keterbatasan Budaya Pop: "Pemeran Singles Inferno Musim 4: Di mana mereka sekarang?" menyebabkan halusinasi, termasuk klaim palsu tentang hubungan pemeran. Demikian pula, pertanyaan tentang preferensi ucapan-ke-teks Simon Willison menghasilkan jawaban yang tidak lengkap.
Meskipun DeepSearch cocok dengan Perplexity dalam keluasan, ia tertinggal dari penawaran OpenAI dalam keandalan. URL yang dihalusinasi dan referensi diri yang dihilangkan (misalnya, mengecualikan xAI dari daftar lab LLM utama) menggarisbawahi kebutuhan penyempurnaan yang berkelanjutan.
3. Menguji Kasus Ujung dan Kueri "Gotcha"
Kinerja Grok-3 pada teka-teki unik yang mudah bagi manusia mengungkapkan kekuatan dan keanehan:
- ✅ Tantangan Linguistik: Ia dengan benar mengidentifikasi tiga "r" dalam "strawberry" tetapi awalnya salah menghitung "L" dalam "LOLLAPALOOZA". Mengaktifkan mode "Think" memperbaiki ini.
- ✅ Perbandingan Numerik: Model ini awalnya mengklaim 9.11 > 9.9—kesalahan LLM umum—tetapi mengoreksi diri sendiri dengan penalaran yang diaktifkan.
- ✅ Teka-Teki Keluarga: Memecahkan "Sally memiliki 3 saudara laki-laki; setiap saudara laki-laki memiliki 2 saudara perempuan. Berapa banyak saudara perempuan yang dimiliki Sally?" secara instan, tidak seperti GPT-4o, yang sering menjawab dengan salah.
- ❌ Pembuatan Humor: Lelucon seperti "Mengapa ayam itu bergabung dengan band? Untuk menjadi cluck-star!" mencerminkan masalah keruntuhan mode yang terus-menerus, dengan atau tanpa mode "Think".
- ❌ Sensitivitas Etis: Ketika ditanya apakah salah menyebut jenis kelamin dapat dibenarkan untuk menyelamatkan nyawa, Grok-3 secara default menolak dengan panjang lebar—kontras dengan kerangka etika ringkas Claude.
- ❌ Pembuatan SVG: Permintaan untuk SVG "pelikan mengendarai sepeda" menghasilkan anggota badan dan roda yang terputus-putus, meskipun output Claude tetap lebih unggul dalam niche ini.
Ringkasan: Tempat Grok-3 di Lanskap AI
Grok-3 mewakili perubahan seismik dalam kecepatan pengembangan AI. Dirilis hanya 17 bulan setelah pendahulunya, ia menyamai atau melampaui model canggih seperti o1-pro dalam penalaran dan pengkodean sambil mengurangi harga mereka. Hal-hal penting yang perlu diperhatikan meliputi:
- Dominasi Tolok Ukur: Skor yang belum pernah terjadi sebelumnya dalam tolok ukur matematika, sains, dan pengkodean memposisikan Grok-3 sebagai pemimpin dalam kemampuan mentah.
- Utilitas Praktis: Kekuatan dalam estimasi komputasi, pembuatan kode, dan pemecahan masalah kompleks menjadikannya alat yang ampuh bagi pengembang dan peneliti.
- Ruang untuk Pertumbuhan: Halusinasi dalam DeepSearch dan inkonsistensi dalam respons humor/etika menyoroti area yang membutuhkan penyempurnaan.
Dengan xAI yang berencana untuk membuka sumber Grok-2 dan memperluas kemampuan suara dan agen Grok-3, model ini siap untuk membentuk kembali industri dari game hingga penelitian ilmiah. Meskipun tidak sempurna, kenaikannya yang pesat menandakan era baru persaingan dalam AI generatif—di mana kelincahan dan kekuatan komputasi mendefinisikan ulang apa yang mungkin.