Apidog

Platform Pengembangan API Kolaboratif All-in-one

Desain API

Dokumentasi API

Debug API

Mocking API

Pengujian Otomatis

Windsurf SWE-1: Coding Keren dengan Gaya

Ashley Innocent

Ashley Innocent

Updated on May 17, 2025

Lanskap pengembangan perangkat lunak sedang mengalami transformasi yang cepat dan mendalam. Kita bergerak melampaui alat AI yang hanya membantu tugas pengkodean yang terisolasi menuju generasi baru AI yang memahami dan meningkatkan seluruh alur kerja rekayasa perangkat lunak. Memimpin upaya ini adalah Windsurf dengan peluncuran pentingnya: SWE-1, keluarga model AI yang dioptimalkan dengan cermat tidak hanya untuk pengkodean, tetapi untuk proses rekayasa perangkat lunak yang lengkap dan multifaset. Dengan tujuan ambisius untuk "mempercepat pengembangan perangkat lunak hingga 99%", SWE-1, yang lahir dari wawasan unik dalam ekosistem Windsurf, menandai momen penting dalam pencarian bantuan pengembangan yang benar-benar cerdas.

💡
Ingin alat Pengujian API yang hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terpadu, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua kebutuhan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button

Keluarga Windsurf SWE-1: Model yang Disesuaikan untuk Berbagai Kebutuhan Rekayasa

Keluarga Windsurf SWE-1

Windsurf SWE-1 bukanlah entitas monolitik tetapi keluarga yang dikurasi dengan cermat dari tiga model berbeda, masing-masing dirancang untuk menangani aspek spesifik dari alur kerja rekayasa perangkat lunak dan melayani berbagai kebutuhan pengguna:

SWE-1

Model unggulan, SWE-1, memberikan kemampuan penalaran yang sebanding dengan Anthropic Claude 3.5 Sonnet, terutama dalam skenario pemanggilan alat, sambil lebih hemat biaya untuk dilayani. Menunjukkan komitmen Windsurf terhadap basis penggunanya, SWE-1 akan tersedia untuk semua pengguna berbayar selama periode promosi tanpa biaya kredit per prompt pengguna, memungkinkan akses luas ke kemampuan canggihnya.

SWE-1-lite

Direkayasa sebagai pengganti yang unggul untuk model Windsurf Cascade Base yang ada, SWE-1-lite menawarkan kualitas dan kinerja yang ditingkatkan. Model yang lebih kecil, namun kuat ini, tersedia untuk penggunaan tanpa batas bagi semua pengguna Windsurf, baik di tingkat gratis maupun berbayar, memastikan bahwa manfaat inti arsitektur SWE yang baru dapat diakses oleh semua orang.

SWE-1-mini

Melengkapi trio ini adalah SWE-1-mini, model yang ringkas dan sangat cepat. Peran utamanya adalah untuk mendukung pengalaman prediktif pasif di dalam Windsurf Tab. Seperti SWE-1-lite, model ini tersedia untuk penggunaan tanpa batas oleh semua pengguna, gratis atau berbayar, memberikan bantuan yang lancar dan latensi rendah langsung di lingkungan pengkodean.

Strategi multi-model ini memungkinkan Windsurf untuk memberikan kinerja yang dioptimalkan di berbagai kasus penggunaan – mulai dari penyelesaian masalah yang kompleks dan interaktif dengan SWE-1 hingga saran pasif yang cepat dengan SWE-1-mini.

Mengapa "Mampu Mengkode" Saja Tidak Cukup untuk IDE Pengkodean AI

Pengembangan SWE-1 didorong oleh pemahaman mendasar: untuk benar-benar merevolusi pengembangan perangkat lunak, AI harus melampaui sekadar pembuatan kode. Windsurf mengartikulasikan kebutuhan ini dengan melihat keadaan dan keterbatasan AI saat ini di bidang tersebut.

Meskipun model yang mahir dalam pengkodean telah meningkat secara signifikan, menjadi mampu melakukan tugas-tugas seperti membangun aplikasi sederhana dalam satu kali jalan, mereka mendekati titik jenuh. Windsurf mengidentifikasi dua area kritis di mana model "mampu mengkode" ini kurang memadai:

  1. Ruang Lingkup Rekayasa Perangkat Lunak: Seperti yang diketahui setiap pengembang, menulis kode hanyalah satu bagian dari teka-teki. Realitas sehari-hari melibatkan banyak tugas di berbagai permukaan: bekerja di terminal, mengakses basis pengetahuan eksternal dan internet, menguji produk secara ketat, dan memahami umpan balik pengguna. Model yang hanya berfokus pada penulisan kode tidak dapat mendukung beban kerja yang beragam ini secara memadai.
  2. Sifat Pekerjaan Pengembangan: Rekayasa perangkat lunak adalah upaya jangka panjang, berkembang melalui serangkaian keadaan yang tidak lengkap. Model dasar terbaik saat ini terutama dilatih pada "pekerjaan taktis"—apakah kode yang dihasilkan dapat dikompilasi dan lulus uji unit? Namun, uji unit yang lulus hanyalah satu titik pemeriksaan dalam masalah rekayasa yang jauh lebih besar. Tantangan sebenarnya terletak pada implementasi fitur dengan cara yang kuat dan mudah dipelihara yang dapat dibangun selama bertahun-tahun. Inilah sebabnya mengapa bahkan model canggih dapat unggul dengan panduan pengguna yang aktif (seperti yang terlihat di Windsurf Cascade) tetapi kesulitan saat beroperasi secara mandiri dalam jangka waktu yang lebih lama. Mengotomatiskan lebih banyak alur kerja memerlukan model yang dapat bernalar atas keadaan yang tidak lengkap dan menangani hasil yang berpotensi ambigu.

Kesimpulan Windsurf jelas: "Pada titik tertentu, hanya menjadi lebih baik dalam pengkodean tidak akan membuat Anda atau model menjadi lebih baik dalam rekayaksa perangkat lunak." Kesadaran ini mengarah pada keyakinan bahwa model "Rekayasa Perangkat Lunak" (SWE) khusus sangat penting untuk mencapai tujuan percepatan ambisius mereka.

Membentuk SWE-1: Data, Pelatihan, dan Ambisi

Pembuatan SWE-1 bukanlah upaya semalam. Model ini dibangun dengan cermat berdasarkan wawasan yang diperoleh dari Windsurf Editor yang banyak digunakan, yang memberikan pemahaman yang kaya tentang alur kerja pengembang dunia nyata. Pengalaman praktis ini menjadi dasar dalam mengembangkan:

  • Sebuah model data yang sepenuhnya baru, yang disebut sebagai "garis waktu bersama" (shared timeline).
  • Sebuah resep pelatihan khusus yang dirancang untuk merangkum kompleksitas rekayasa perangkat lunak, termasuk keadaan yang tidak lengkap, tugas yang berjalan lama, dan penggunaan berbagai permukaan.

Dengan blok bangunan ini, Windsurf memulai proyek SWE-1 dengan tujuan awal yang terfokus: untuk membuktikan bahwa mungkin untuk mencapai kinerja tingkat terdepan dengan pendekatan baru ini, bahkan dengan tim insinyur yang lebih kecil dan sumber daya komputasi yang lebih sedikit dibandingkan laboratorium penelitian besar. SWE-1, dalam bentuknya saat ini, berdiri sebagai bukti konsep awal yang meyakinkan untuk visi ini.

Kinerja SWE-1: Tolok Ukur dan Dampak Dunia Nyata

Windsurf telah mengevaluasi kemampuan SWE-1 secara ketat melalui evaluasi offline dan eksperimen produksi buta, menunjukkan daya saing dan kekuatan uniknya.

Evaluasi Offline

Dalam pengujian offline, SWE-1 diuji terhadap keluarga model Anthropic Claude (populer di Cascade), serta model pengkodean open-weight terkemuka seperti Deepseek dan Qwen. Dua tolok ukur utama digunakan:

Grafik perbandingan kinerja SWE-1 dalam tolok ukur tugas SWE percakapan.
  • Tolok Ukur Tugas SWE Percakapan: Tolok ukur ini menilai kinerja dalam skenario manusia dalam lingkaran (human-in-the-loop). Dimulai di tengah sesi Cascade yang ada dengan tugas yang setengah selesai, tolok ukur ini mengukur seberapa baik Cascade, yang didukung oleh model, menangani kueri pengguna berikutnya. Skor 0-10 adalah rata-rata gabungan dari skor juri manusia (untuk kebermanfaatan, efisiensi, kebenaran) dan metrik akurasi untuk pengeditan file target. Windsurf menekankan bahwa ini menangkap "sifat unik pengkodean agenik manusia dalam lingkaran," yang penting selama model tetap tidak sempurna.
  • Tolok Ukur Tugas SWE Ujung ke Ujung: Tolok ukur ini mengevaluasi kemampuan model untuk beroperasi secara mandiri. Dimulai dari awal percakapan, tolok ukur ini mengukur seberapa baik Cascade menangani niat input dengan melewati serangkaian uji unit terpilih. Skor 0-10 menggabungkan tingkat kelulusan uji dan skor juri.
Grafik perbandingan kinerja SWE-1 dalam tolok ukur tugas SWE ujung ke ujung.

Hasil evaluasi offline ini menunjukkan bahwa SWE-1 berkinerja dalam ranah model dasar terdepan dari laboratorium besar untuk tugas rekayasa perangkat lunak spesifik ini. Yang penting, model ini menunjukkan keunggulan dibandingkan model berukuran sedang dan alternatif open-weight terkemuka. Meskipun tidak mengklaim sebagai yang paling terdepan, SWE-1 menunjukkan potensi dan daya saing yang signifikan.

Eksperimen Produksi

Grafik perbandingan kinerja SWE-1 dalam eksperimen produksi.

Melengkapi evaluasi offline, Windsurf melakukan eksperimen produksi buta, memanfaatkan komunitas penggunanya yang besar. Sebagian pengguna mengakses model yang berbeda (termasuk model Claude sebagai tolok ukur) tanpa mengetahui model mana yang mereka gunakan, dengan model dipertahankan konstan per pengguna untuk mengukur penggunaan berulang. Metrik utama meliputi:

  • Baris Harian yang Disumbangkan per Pengguna: Ini mengukur jumlah rata-rata baris yang ditulis oleh Cascade dan diterima serta dipertahankan secara aktif oleh pengguna selama waktu yang tetap. Ini mencerminkan kebermanfaatan keseluruhan, mencakup kualitas kontribusi dan kesediaan pengguna untuk berulang kali berinteraksi dengan model. Faktor-faktor seperti proaktivitas, kualitas saran, kecepatan, dan responsivitas terhadap umpan balik berkontribusi pada metrik ini.
  • Tingkat Kontribusi Cascade: Untuk file yang diedit setidaknya sekali oleh Cascade, metrik ini menghitung persentase perubahan yang dibuat pada file tersebut yang berasal dari Cascade. Ini mengukur kebermanfaatan sambil menormalkan frekuensi interaksi pengguna dan kecenderungan model untuk berkontribusi kode.

Windsurf mencatat bahwa SWE-1 "dibangun dan di-overfit pada jenis interaksi yang dimiliki pengguna kami dengan Cascade." Tidak mengherankan, model ini tampaknya mendekati yang terdepan di industri dalam eksperimen produksi ini, menggarisbawahi efektivitasnya di lingkungan Windsurf dunia nyata.

Pendekatan ketat yang sama menegaskan bahwa SWE-1-lite, yang dibangun dengan metodologi pelatihan yang sama, memimpin model berukuran sedang non-terdepan lainnya dan akan menggantikan Cascade Base. SWE-1-mini, yang juga berbagi prinsip pelatihan inti, dioptimalkan untuk tuntutan latensi prediksi pasif.

Mesin: Sistem Sadar Alur Windsurf

Landasan pengembangan dan potensi masa depan SWE-1 adalah "Sistem Sadar Alur" Windsurf. Sistem ini, yang sangat terintegrasi ke dalam Windsurf Editor, memberikan wawasan penting yang memungkinkan SWE-1 dan mendukung keyakinan Windsurf pada keunggulan model jangka panjangnya.

Mendefinisikan Kesadaran Alur

Kesadaran alur mengacu pada jalinan mulus antara keadaan pengguna dan AI. Sistem ini dibangun di atas prinsip "garis waktu bersama": apa pun yang dilakukan AI harus dapat diamati dan ditindaklanjuti oleh manusia, dan sebaliknya, apa pun yang dilakukan manusia harus dapat diamati dan ditindaklanjuti oleh AI. Windsurf selalu merujuk pada pengalaman agenik kolaboratifnya sebagai "alur AI" justru karena kesadaran yang mendalam dan saling menguntungkan ini.

Peran Kritis Kesadaran Alur

Windsurf menyatakan bahwa akan butuh waktu sebelum model SWE benar-benar dapat beroperasi dengan kemandirian penuh. Selama periode menengah ini, kesadaran alur sangat penting. Ini memungkinkan model interaksi yang alami dan efektif: AI mencoba tugas, dan di mana ia membuat kesalahan atau membutuhkan panduan, manusia dapat dengan lancar masuk untuk mengoreksi arah. Model kemudian melanjutkan, membangun di atas masukan manusia.

Hubungan simbiosis ini berarti Windsurf dapat terus-menerus mengukur batas sebenarnya dari modelnya dengan mengamati langkah-langkah mana yang diselesaikan dengan dan tanpa intervensi pengguna dalam garis waktu bersama ini. Ini memberikan, dalam skala besar, pengetahuan yang tepat tentang apa yang perlu ditingkatkan pengguna selanjutnya, menciptakan lingkaran umpan balik yang kuat untuk pengembangan model yang cepat.

Kesadaran Alur dalam Tindakan

Konsep garis waktu bersama telah menjadi visi panduan untuk banyak fitur utama di seluruh ekosistem Windsurf:

Cascade:

  • Sejak diluncurkan, Cascade memungkinkan pengguna untuk melakukan pengeditan di editor teks mereka dan kemudian mengetik "lanjutkan", dengan Cascade secara otomatis memasukkan perubahan tersebut (kesadaran akan editor teks).
  • Output terminal diintegrasikan, membuat Cascade sadar akan kesalahan yang ditemui selama eksekusi kode (kesadaran akan terminal).
  • Wave 4 memperkenalkan "Pratinjau", memberikan Cascade pemahaman dasar tentang komponen frontend atau kesalahan yang berinteraksi dengan pengguna (kesadaran akan browser).

Tab:

  • Windsurf Tab juga dibangun di atas garis waktu bersama ini. Konteksnya tidak hanya diperluas secara sembarangan; ini adalah konstruksi cermat yang mencerminkan tindakan dan tujuan pengguna.
  • Wave 5 membawa kesadaran akan perintah terminal, konten papan klip, dan percakapan Cascade saat ini ke Tab.
  • Wave 6 menambahkan kesadaran akan pencarian pengguna dalam IDE.

Windsurf menekankan bahwa ini bukan tentang "fitur acak" tetapi upaya yang disengaja dan berkelanjutan untuk membangun representasi sekaya mungkin dari garis waktu bersama untuk pekerjaan rekayasa perangkat lunak. Meskipun garis waktu yang diperkaya ini secara signifikan meningkatkan alat Windsurf bahkan dengan model siap pakai, munculnya model SWE mereka sendiri memungkinkan mereka untuk "benar-benar menggerakkan roda gila ini dengan memiliki model yang dapat mencerna garis waktu dan mulai bertindak pada semakin banyak bagian dari garis waktu."

Jalan di Depan: Di Luar SWE-1

SWE-1, yang dicapai oleh "tim kecil namun sangat terfokus", hanyalah permulaan. Windsurf memandangnya sebagai upaya serius pertama mereka untuk membangun model berkualitas terdepan yang sesungguhnya, memanfaatkan "roda gila aplikasi, sistem, dan model" unik mereka – ekosistem yang mungkin tidak dimiliki bahkan oleh laboratorium model dasar tanpa permukaan aplikasi Windsurf dan skala wawasan yang berasal dari aktivitas.

Pengguna dapat mengharapkan peningkatan berkelanjutan pada keluarga SWE. Windsurf berkomitmen untuk berinvestasi lebih banyak lagi dalam strategi ini, bertujuan untuk memberikan kinerja terbaik dengan biaya terendah. Ambisi utama mereka dalam domain rekayaksa perangkat lunak bukanlah sekadar untuk menyamai kinerja model terdepan dari laboratorium penelitian mana pun, tetapi untuk "melampaui semuanya".

Meskipun pengumuman rinci dari Windsurf berfokus pada strategi dan pencapaian internal mereka, industri teknologi yang lebih luas juga telah mencatat kemajuan mereka, dengan laporan (seperti dari VentureBeat mengenai potensi akuisisi oleh OpenAI) menyoroti dampak dan potensi signifikan Windsurf.

Penyelaman mendalam ke dalam SWE-1 ini mengungkapkan sebuah perusahaan yang tidak hanya membangun alat AI, tetapi secara fundamental memikirkan kembali hubungan antara pengembang dan AI, membuka jalan bagi masa depan di mana rekayasa perangkat lunak dipercepat dan ditingkatkan secara dramatis.