Tiga rilis kelas perbatasan telah diluncurkan dalam 33 hari terakhir. Claude Opus 4.7 dari Anthropic hadir pada 16 April. GPT-5.5 dari OpenAI menyusul pada 23 April. Gemini 3.5 Flash dari Google diluncurkan pada 19 Mei, dengan versi Pro tiba di bulan Juni.
Penting untuk disebutkan di awal: ini adalah perbandingan tingkat yang tidak sepadan. Opus 4.7 dan GPT-5.5 adalah model unggulan dengan harga unggulan. Flash adalah varian Google yang cepat dan berbiaya rendah, dengan harga sepersekian dari keduanya. Pertanyaan menariknya adalah apakah Flash mampu bersaing ketika Anda membandingkannya dengan model yang harganya 5–10 kali lebih mahal per token.
Jawaban singkatnya: Flash tampil jauh di atas kelasnya. Ia unggul dalam biaya, kecepatan, dan beberapa benchmark agensi. Ia kalah dalam tugas pengkodean tersulit dan kualitas penulisan. Triknya adalah mencocokkan model dengan beban kerja.
Jawaban 30 Detik
| Pertanyaan | Pilihan Terbaik |
|---|---|
| Loop agen produksi termurah | Gemini 3.5 Flash |
| Skor tertinggi pada perbaikan bug terverifikasi SWE-Bench | Opus 4.7 |
| Paling efisien token dalam skala besar | GPT-5.5 |
| Retrieval konteks panjang terbaik (1M token) | Gemini 3.5 Flash |
| Pemahaman bagan dan dokumen terbaik | Gemini 3.5 Flash |
| Agen CLI cakrawala panjang terbaik | GPT-5.5 (Terminal-Bench 2.0) |
| Penurutan instruksi multi-langkah terbaik | Opus 4.7 |
| Output token tercepat | Gemini 3.5 Flash (~4× lainnya) |
| Refaktor kode seluruh repositori terbaik | Opus 4.7 |
Tidak ada pemenang tunggal. Baca terus untuk rincian beban kerja demi beban kerja.
Linimasa Rilis
Model-model tersebut diluncurkan berdekatan tetapi dengan penempatan yang berbeda:
- Opus 4.7, 16 April 2026. Model penalaran unggulan Anthropic, dioptimalkan untuk kode dan pekerjaan multi-langkah yang diperpanjang. Tingkat unggulan.
- GPT-5.5, 23 April 2026. Model dasar pertama OpenAI yang sepenuhnya dilatih ulang sejak GPT-4.5. Fokus: efisiensi agensi dan pengurangan biaya token. Tingkat unggulan.
- Gemini 3.5 Flash, 19 Mei 2026. Varian cepat Google dari keluarga 3.5. Fokus: eksekusi agensi dengan biaya rendah dan kecepatan tinggi. Tingkat menengah. Gemini 3.5 Pro (tingkat unggulan) diluncurkan Juni 2026.
Setiap rilis adalah peningkatan dari pendahulu yang belum sepenuhnya menutup celah dalam pekerjaan agen skala produksi. Lihat artikel kami sebelumnya Cursor Composer 2.5 vs Opus 4.7 vs GPT-5.5 untuk sudut pandang alat pengkodean, dan postingan kami Gemini 3.1 Pro vs Opus 4.6 vs GPT-5.3 untuk melihat bagaimana generasi sebelumnya bersaing.
Perbandingan Harga
Di sinilah ketidakcocokan tingkat paling terlihat:
| Model | Input ($/1M) | Output ($/1M) | Catatan |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Tersedia tingkat gratis |
| GPT-5.5 | ~$10 | ~$30 | Input cache lebih murah |
| Claude Opus 4.7 | ~$15 | ~$75 | Harga daftar tertinggi |
Per token, Flash 6–10× lebih murah untuk input dan 3–8× lebih murah untuk output. Untuk perhitungan harga lengkap termasuk mode batch dan Vertex AI, lihat rincian harga Gemini 3.5 Flash. Untuk detail GPT-5.5, lihat harga GPT-5.5.
Untuk beban kerja agen di mana model menjalankan ratusan putaran per tugas, kesenjangan biaya akan berlipat ganda. Klaim Google bahwa “kurang dari setengah biaya model perbatasan lainnya” adalah perbandingan unggulan-vs-unggulan; Flash secara spesifik jauh di bawah setengah.
Efisiensi token memiringkan perhitungan ke arah lain. GPT-5.5 menghasilkan token output yang jauh lebih sedikit untuk tugas yang sama, kadang-kadang 72% lebih sedikit dari Opus 4.7. Ini sebagian menutup kesenjangan per-tugas meskipun tarif per-token lebih tinggi.
Benchmark Pengkodean
Pengkodean adalah area di mana ketiga model paling terlihat bersaing.

SWE-Bench Verified (perbaikan bug satu masalah)
| Model | Skor |
|---|---|
| Opus 4.7 | 87.6% |
| GPT-5.5 | ~85% |
| Gemini 3.5 Flash | Tidak dilaporkan secara terpisah |
Opus 4.7 masih memimpin dalam benchmark perbaikan bug terisolasi. Kesenjangan dengan GPT-5.5 adalah beberapa poin persentase, yang berarti untuk sebagian besar tugas pengkodean satu kali, keduanya terasa kompetitif. Flash tidak menerbitkan angka yang sebanding, tetapi pengujian informal menunjukkan bahwa ia berada di bawah kedua model unggulan pada SWE-Bench Verified murni, yang diharapkan untuk model tingkat cepat.
SWE-Bench Pro (perbaikan kompleks multi-file)
| Model | Skor |
|---|---|
| Opus 4.7 | 64.3% |
| GPT-5.5 | 58.6% |
| Gemini 3.5 Flash | Tidak dilaporkan secara terpisah |
Refaktor multi-file adalah keunggulan terkuat Opus 4.7. Jika Anda menggunakan alur kerja Cursor Composer atau Claude Code setiap hari untuk refaktor dunia nyata di seluruh repositori, Opus adalah pilihan default yang lebih aman. Flash akan membantu Anda sebagian besar untuk perubahan rutin dengan biaya yang sangat kecil.
Terminal-Bench 2.0/2.1 (loop agen CLI)
| Model | Skor | Benchmark |
|---|---|---|
| GPT-5.5 | 82.7% | Terminal-Bench 2.0 |
| Gemini 3.5 Flash | 76.2% | Terminal-Bench 2.1 |
| Opus 4.7 | 69.4% | Terminal-Bench 2.0 |
Dua papan skor yang berbeda, 2.0 dan 2.1 menggunakan campuran tugas yang berbeda. Intinya: Flash dan GPT-5.5 keduanya mengungguli Opus dalam menjalankan agen CLI yang panjang. GPT-5.5 masih memimpin di sini, tetapi Flash telah menutup sebagian besar celah, sementara biayanya jauh lebih murah.
MCP Atlas (koordinasi multi-alat)
Gemini 3.5 Flash: 83.6%. Metrik utama Google untuk penggunaan alat agensi. OpenAI dan Anthropic belum mempublikasikan angka yang sebanding pada benchmark yang sama, yang membuat perbandingan langsung menjadi sulit. Secara anekdot, ketiga model ini kredibel dalam beban kerja panggilan alat pada tahun 2026.
Pekerjaan Agensi dan Cakrawala Panjang
Untuk tugas yang berjalan selama puluhan menit hingga jam tanpa pengawasan:
- Gemini 3.5 Flash: unggul dalam harga per tugas dan kecepatan output. Skor MCP Atlas (83.6%) dan Terminal-Bench 2.1 (76.2%) menunjukkan perilaku penggunaan alat yang konsisten. Pengiriman sub-agen adalah kelas satu.
- GPT-5.5: unggul dalam Terminal-Bench 2.0 (82.7%) dan efisiensi token. Token output yang lebih sedikit per tugas berarti variasi yang lebih rendah dan kelebihan biaya yang lebih rendah.
- Opus 4.7: unggul dalam penurutan instruksi multi-langkah dan kualitas kode. Kalah dalam kecepatan dan harga untuk eksekusi yang sangat panjang karena output bergaya narasi yang bertele-tele.
Jika Anda membuat agen yang berjalan terus-menerus seperti dalam pola perintah /goal dengan Codex dan Claude Code, aspek ekonominya menjadi penting. Flash unggul dalam biaya; Opus unggul dalam kualitas output per giliran; GPT-5.5 unggul dalam disiplin token.
Jendela Konteks dan Retrieval Konteks Panjang
| Model | Input Maks | Output Maks |
|---|---|---|
| Gemini 3.5 Flash | 1M token | 64K token |
| GPT-5.5 | 400K token | 128K token |
| Opus 4.7 | 1M token (beta) | 64K token |
Flash memimpin tabel yang diterbitkan Google pada benchmark retrieval MRCR v2 1M token. Itu menjadikan Flash pilihan paling tepat ketika tugasnya adalah “menemukan jawaban yang benar dalam PDF 200 halaman” tanpa strategi chunking, terutama mengingat tingkat harganya.
Opus 4.7 cocok dalam ukuran jendela mentah tetapi tertinggal dalam konsistensi retrieval di tingkat atas. 400K GPT-5.5 murah hati tetapi kalah dari Flash untuk skala mentah.
Untuk alur kerja yang banyak dokumen, laporan panjang, seluruh basis kode, analisis multi-dokumen, Flash adalah pilihan default yang praktis.
Multimodal
Flash memimpin dalam penalaran bagan dan dokumen:
- Penalaran CharXiv: 84.2% (Gemini 3.5 Flash)
- MMMU-Pro: 83.6% (Gemini 3.5 Flash)
OpenAI dan Anthropic keduanya mendukung input gambar pada model unggulan mereka, tetapi tidak ada yang menyamai skor penalaran bagan Flash pada hari peluncuran. Untuk analitik visual, ekstraksi PDF, atau alur kerja yang menggabungkan teks dan tangkapan layar, Flash adalah pilihan yang jelas.
Jika Anda mengarahkan pembuatan gambar sebagai bagian dari pipeline, lihat pandangan kami tentang Gemini 3 Pro Image vs Seedream untuk pemilihan model di sisi tersebut.
Kecepatan Output
Token per detik penting ketika pengguna menunggu output streaming.
| Model | Kecepatan Output Relatif |
|---|---|
| Gemini 3.5 Flash | ~4× baseline |
| GPT-5.5 | baseline |
| Opus 4.7 | ~0.7× baseline |
Angka-angka bervariasi berdasarkan wilayah dan beban. Arahnya konsisten: Flash streaming terlihat lebih cepat daripada kedua model unggulan. Untuk UI chat dan asisten pengkodean langsung, peningkatan kualitas yang dirasakan dari streaming instan adalah nyata.
Penalaran, Matematika, dan Sains
| Benchmark | Flash | GPT-5.5 | Opus 4.7 |
|---|---|---|---|
| GPQA Diamond | Kuat (menurut tabel Google) | Tinggi | Tinggi |
| Penalaran matematika | Kuat | Kuat | Kuat |
| Penulisan bentuk panjang | Baik | Baik | Terbaik |
Baris ini ketat di puncak papan peringkat, tetapi dengan peringatan: Flash mempertahankan posisinya di sini meskipun merupakan model tingkat cepat. Opus masih memiliki gaya penulisan naratif terkuat. Dua lainnya telah menyusul dalam penalaran mentah.
Ekosistem Alat dan Integrasi
- Opus 4.7: Claude Code, MCP, Anthropic API, ekosistem alat yang matang, Bitwarden Agent dan dukungan IDE yang luas
- GPT-5.5: OpenAI Codex, Responses API, integrasi aplikasi ChatGPT. Pemanggilan fungsi memiliki rekam jejak terpanjang
- Gemini 3.5 Flash: Antigravity, Gemini Enterprise Agent Platform, Gemini CLI, integrasi Android Studio, berkembang pesat
Anthropic memiliki ekosistem adapter pihak ketiga terdalam. OpenAI memiliki adopsi pengembang terluas. Google dengan cepat mengejar dengan Antigravity dan Agent Platform tetapi memulai dari basis pihak ketiga yang lebih kecil.
Kapan memilih model mana
Lewati benchmark sebentar dan lihat beban kerja.
Pilih Gemini 3.5 Flash ketika:
- Anda memiliki anggaran per tugas yang ketat
- Kecepatan output dalam UI streaming penting
- Anda memproses dokumen panjang (1M token)
- Tugas melibatkan bagan, PDF, tangkapan layar
- Anda menginginkan loop agen yang kredibel pada tingkat harga terendah
- Anda sudah berada dalam ekosistem Google Cloud atau Workspace
- Beban kerja bervolume tinggi dan 'cukup baik' mengalahkan 'sempurna'
Pilih GPT-5.5 ketika:
- Efisiensi token adalah prioritas (Anda membayar per juta)
- Tugasnya adalah pekerjaan agen yang digerakkan oleh CLI (pemimpin Terminal-Bench)
- Anda menginginkan pustaka adaptor alat pihak ketiga terluas
- ChatGPT sudah menjadi bagian dari alur kerja tim Anda
- Lihat pengaturan lengkap di Cara menggunakan GPT-5.5 API
Pilih Opus 4.7 ketika:
- Tugasnya adalah refaktor kode multi-file atau perubahan di seluruh repositori (pemimpin SWE-Bench Pro)
- Kualitas penurutan instruksi multi-langkah lebih penting daripada kecepatan
- Penulisan bentuk panjang atau output narasi yang cermat adalah hasilnya
- Anda sudah menggunakan Claude Code dengan paket Claude
- Biaya per tugas bukanlah kendala utama
Pilih kombinasi ketika:
Sebagian besar tumpukan produksi akhirnya menjalankan dua dari ini. Pola umum:
- Flash untuk retrieval dan persiapan, Opus untuk commit akhir: pekerjaan berat konteks yang murah memberikan input yang tepat ke model yang mahal
- GPT-5.5 untuk loop agen CLI, Flash untuk analisis bagan/dokumen: masing-masing melakukan yang terbaik
- Flash untuk 80% lalu lintas, Opus atau GPT-5.5 untuk 20% yang sulit: arahkan berdasarkan kompleksitas tugas
- Ketiganya di belakang router murah yang memilih berdasarkan jenis tugas
Perbandingan Tingkat Gratis
Ketiganya memiliki jalur gratis:
- Gemini 3.5 Flash: Kunci API AI Studio, ~1.500 permintaan/hari. Lihat panduan gratis Flash kami
- GPT-5.5: kueri gratis terbatas di ChatGPT, ditambah gateway yang dibahas dalam panduan gratis GPT-5.5 kami
- Opus 4.7: Batas harian Claude.ai, ditambah jalur gratis dalam panduan gratis Opus 4.7 kami
Dari ketiganya, jalur API gratis Flash adalah yang paling ramah bagi pengembang. AI Studio memberi Anda kunci yang berfungsi tanpa kartu kredit dan kuota harian yang berguna.
Bagaimana sebenarnya menguji ini terhadap beban kerja Anda sendiri
Benchmark memberi tahu Anda apa yang dapat dilakukan model secara rata-rata. Beban kerja Anda adalah yang terpenting. Bangun alat evaluasi kecil:
- Pilih 20 tugas representatif dari kasus penggunaan Anda yang sebenarnya
- Jalankan ketiga model untuk setiap tugas
- Nilai berdasarkan tiga dimensi: keberhasilan tugas, total biaya, latensi
- Perhatikan mode kegagalan yang spesifik untuk beban kerja Anda, penolakan, pergeseran skema, perubahan bentuk panggilan alat
Di sinilah Apidog membantu. Anda menyimpan tiga endpoint API (Gemini, OpenAI, Anthropic) sebagai permintaan berparameter, menyimpan kunci sebagai variabel lingkungan, dan menjalankan prompt yang sama di ketiga model dengan satu klik. Respons kembali ke kerangka kerja pengujian Apidog tempat Anda dapat membandingkannya secara berdampingan.
Pengaturan praktis:
- Unduh Apidog
- Buat ruang kerja bernama "Evaluasi Model Perbatasan"

- Simpan tiga permintaan, satu per penyedia (Flash, GPT-5.5, Opus 4.7)
- Buat skenario pengujian yang menjalankan prompt yang sama pada ketiganya
- Tambahkan penegasan respons (bentuk JSON, string yang harus disertakan, ambang batas latensi)
- Jalankan skenario setiap minggu untuk mendeteksi pergeseran model
Dua hari pengaturan mengalahkan tiga bulan perdebatan tentang model mana yang “terasa” lebih baik.
Apa yang berubah selanjutnya
Tiga hal yang perlu diperhatikan dalam 90 hari ke depan:
- Gemini 3.5 Pro GA. Setelah Pro diluncurkan pada bulan Juni, perbandingan akan berubah. Flash akan tetap memegang keunggulan biaya/kecepatan, tetapi Pro akan menjadi model unggulan yang sepadan untuk Opus dan GPT-5.5.
- Respons OpenAI. GPT-5.5 adalah rilis April. Pembaruan pertengahan siklus atau varian baru kemungkinan akan terjadi jika Gemini 3.5 Pro diluncurkan dengan kuat.
- Langkah Anthropic selanjutnya. Opus 4.7 adalah model unggulan Anthropic saat ini. Pembaruan Sonnet atau Opus 4.8 di kuartal berikutnya akan sesuai siklus.
Ruang ini bergerak setiap bulan sekarang. Langkah cerdas adalah tetap menjalankan alat evaluasi Anda, beralih ketika angka-angka bergerak, dan jangan pernah terkunci pada alat dari satu penyedia.
FAQ
Apakah Gemini 3.5 Flash benar-benar kompetitif dengan Opus 4.7 dan GPT-5.5? Ya, di kelasnya. Flash tampil di atas kelasnya pada benchmark agensi dan mendominasi dalam biaya. Untuk tugas-tugas tersulit (refaktor multi-file yang kompleks, penulisan bentuk panjang yang cermat), model unggulan masih memimpin.
Mengapa membandingkan model tingkat cepat dengan model unggulan? Karena kesenjangan biaya sangat besar sehingga banyak beban kerja produksi seharusnya berjalan di Flash bahkan ketika model unggulan akan melakukan tugas tersebut sedikit lebih baik. Pertanyaan jujurnya adalah “apakah Flash cukup baik untuk beban kerja ini?” bukan “apakah Flash yang terbaik dalam segala hal?”
Apakah Opus 4.7 sebanding dengan harga yang lebih tinggi? Untuk beban kerja di mana kualitas kode atau penulisan per giliran paling penting, ya. Untuk loop agen bervolume tinggi di mana Anda menjalankan ribuan giliran, perhitungan per-tugas menguntungkan Flash.
Bisakah saya menggunakan ketiganya melalui satu API? Tidak secara langsung. Setiap penyedia memiliki endpointnya sendiri. Mode yang kompatibel dengan OpenAI dari OpenAI didukung oleh Google (shim), tetapi Anda tetap harus mengelola tiga set kredensial. Pola paling bersih adalah mengabstraksikan panggilan model di balik pembungkus tipis Anda sendiri.
Kapan Gemini 3.5 Pro diluncurkan? Juni 2026. Itu akan menjadi model unggulan yang sepadan untuk Opus dan GPT-5.5. Hingga saat itu, Flash adalah satu-satunya pilihan dari keluarga 3.5.
Bagaimana cara memantau biaya saat menjalankan tiga penyedia? Lacak pengeluaran per model dalam riwayat permintaan Apidog, atau gabungkan dasbor penyedia Anda. Atur peringatan anggaran per model untuk menghindari kejutan selama pengujian.
Intinya
Tiga model yang kredibel, tiga titik manis yang berbeda.
- Gemini 3.5 Flash untuk pekerjaan berbiaya rendah, cepat, multimodal, konteks panjang, dan sebagian besar beban kerja agensi yang sebelumnya membutuhkan model unggulan
- GPT-5.5 untuk otomatisasi agen yang efisien token dan banyak menggunakan CLI
- Opus 4.7 untuk refaktor kode berkualitas tinggi dan penulisan bentuk panjang
Bangun evaluasi Anda sendiri. Uji terhadap beban kerja Anda yang sebenarnya. Beralihlah saat angkanya bergerak. Itu satu-satunya jawaban jujur di pasar di mana pemimpinnya berubah setiap bulan. Dan perhatikan bulan Juni: Gemini 3.5 Pro akan mengubah pertarungan ini.
