10 Penyebab Utama Flaky Test & Solusinya

Halo, sesama pengembang! Jika Anda pernah mengerjakan pengujian otomatis, Anda pasti tahu perasaan tidak enak saat melihat sebuah tes gagal meskipun tidak ada yang berubah dalam kode. Mari kita bayangkan sebuah adegan, saya yakin ini sangat akrab. Anda mendorong kode yang Anda buat dengan indah, yakin bahwa itu adalah karya terbaik Anda. Anda memicu pipeline integrasi berkelanjutan (CI) dan menunggu tanda centang hijau yang memuaskan. Namun, yang Anda dapatkan adalah tanda **X** merah besar yang marah. Hati Anda mencelos. "Apa yang saya rusak?!" Anda dengan panik memeriksa log, hanya untuk menemukan... kegagalan tes acak. Anda menjalankannya lagi: kadang berhasil, kadang tidak.

Kedengarannya familiar? Anda, teman saya, baru saja menjadi korban tes yang tidak stabil (flaky test).

Dan inilah kebenarannya: tes yang tidak stabil membuang waktu pengembang, memperlambat pipeline CI/CD, dan menciptakan frustrasi besar di seluruh tim. Tes yang tidak stabil adalah poltergeist yang menghantui pengembangan perangkat lunak. Mereka gagal secara tidak terduga dan seolah-olah acak, mengikis kepercayaan pada seluruh proses pengujian Anda, membuang waktu investigasi yang tak terhitung, dan memperlambat pengiriman hingga merangkak. Bahkan, mereka adalah masalah universal yang begitu menyakitkan sehingga para pemimpin industri seperti Google telah menerbitkan penelitian ekstensif tentang cara menghilangkannya.

Tapi ini kabar baiknya: tes yang tidak stabil bukanlah sihir. Mereka memiliki penyebab spesifik yang dapat diidentifikasi. Dan apa yang dapat diidentifikasi dapat diperbaiki. Anda dapat mengatasinya setelah Anda memahami akar penyebabnya.

💡

Ingin alat Pengujian API yang hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform All-in-One yang terintegrasi untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

button

Apa Sebenarnya Tes yang Tidak Stabil Itu?

Sebelum kita mendaftarkan para pelakunya, mari kita definisikan musuh kita. Tes yang tidak stabil adalah tes yang menunjukkan perilaku berhasil dan gagal saat dijalankan berkali-kali pada versi kode yang sama dan identik. Ini bukan tes yang gagal secara konsisten karena bug. Ini adalah tes yang gagal secara tidak konsisten, menjadikannya indikator kesehatan kode yang bising dan tidak dapat diandalkan.

Contoh:

Jalankan #1 → ✅ Berhasil
Jalankan #2 → ❌ Gagal
Jalankan #3 → ✅ Berhasil lagi

Biaya dari tes-tes ini sangat besar. Mereka menyebabkan:

Siklus "Jalankan Ulang dan Berdoa": Membuang sumber daya pengembang dan CI.
Kelelahan Peringatan: Ketika tes sering gagal tanpa alasan, tim mulai mengabaikan kegagalan, yang berarti bug nyata lolos.
Kecepatan Pengembangan yang Lebih Lambat: Build yang rusak dan waktu investigasi memperlambat seluruh tim.

Mengapa Tes yang Tidak Stabil Berbahaya bagi Tim

Anda mungkin berpikir, "Ini hanya satu tes yang gagal, saya akan menjalankannya lagi." Tapi inilah masalahnya:

Kehilangan Kepercayaan → Pengembang berhenti mempercayai hasil tes.
CI/CD yang Lebih Lambat → Pipeline tersumbat oleh percobaan ulang.
Bug Tersembunyi → Masalah nyata diabaikan karena orang berasumsi "oh, itu hanya tidak stabil."
Peningkatan Biaya → Lebih banyak percobaan ulang berarti lebih banyak waktu, sumber daya, dan infrastruktur.

Menurut studi industri, beberapa perusahaan menghabiskan hingga 40% waktu pengujian untuk mengatasi ketidakstabilan. Itu angka yang sangat besar!

Sekarang, mari kita temui para tersangka biasa.

Penyebab dan Perbaikan Tes yang Tidak Stabil

1. Operasi Asinkron dan Kondisi Balapan (Race Conditions)

Ini bisa dibilang raja dari tes yang tidak stabil. Dalam aplikasi modern, semuanya adalah panggilan API asinkron, operasi basis data, pembaruan UI. Jika tes Anda tidak menunggu operasi ini selesai dengan benar, pada dasarnya itu hanya menebak. Kadang-kadang tebakannya benar (operasi selesai dengan cepat), dan kadang-kadang tebakannya salah (lambat), menyebabkan kegagalan.

Mengapa itu terjadi: Kode tes Anda dieksekusi secara sinkron, tetapi kode aplikasi yang diujinya tidak.

Contoh: Tes yang mengklik tombol "Simpan" dan segera memeriksa basis data untuk rekaman baru tanpa menunggu permintaan jaringan operasi simpan selesai.

Perbaikan:

Gunakan Penundaan Eksplisit: Jangan pernah menggunakan panggilan sleep() atau setTimeout() statis. Ini adalah sumber utama ketidakstabilan karena Anda menunggu terlalu lama (memperlambat tes) atau tidak cukup lama (menyebabkan kegagalan).
Gunakan Strategi Penantian: Gunakan alat yang memungkinkan Anda menunggu kondisi tertentu. Misalnya:
Tes UI: Tunggu elemen terlihat, dapat diklik, atau berisi teks tertentu.
Tes API: Tunggu status respons HTTP tertentu atau payload muncul di basis data.
Selenium/WebDriver: Gunakan WebDriverWait dengan expected_conditions.
Cypress: Cypress memiliki penantian otomatis yang terpasang untuk sebagian besar perintah, yang fantastis untuk menghindari masalah ini.

2. Masalah Isolasi Tes

Tes harus seperti orang asing yang sopan: mereka tidak boleh meninggalkan kekacauan untuk orang berikutnya. Ketika tes berbagi status dan tidak membersihkan diri setelahnya, mereka dapat dengan mudah saling mengganggu. Tes A membuat pengguna "test@example.com", berhasil, tetapi tidak menghapusnya. Tes B kemudian mencoba membuat pengguna yang sama dan gagal karena pelanggaran batasan unik.

Mengapa itu terjadi: Sumber daya bersama seperti basis data, cache, atau sistem file dimodifikasi oleh satu tes, mengubah status awal untuk tes berikutnya.

Perbaikan:

Pastikan Isolasi Penuh: Setiap tes harus menyiapkan data yang diperlukan sendiri dan menghapusnya sepenuhnya setelahnya. Ini adalah aturan emas.
Gunakan Transaksi: Pola yang kuat adalah menjalankan setiap tes di dalam transaksi basis data dan kemudian mengembalikannya pada akhirnya. Ini membuat basis data benar-benar murni.
Hasilkan Data Unik: Gunakan pengidentifikasi unik (seperti UUID atau stempel waktu) dalam data tes untuk menghindari konflik. Misalnya, test.user.<timestamp>@example.com.

3. Ketergantungan pada Layanan Eksternal

Apakah suite tes Anda memanggil API pihak ketiga untuk pemrosesan pembayaran, data cuaca, atau validasi email? Jika demikian, Anda telah memperkenalkan titik kegagalan besar yang sepenuhnya di luar kendali Anda. API tersebut bisa lambat, membatasi laju Anda, tidak berfungsi untuk pemeliharaan, atau telah sedikit mengubah format responsnya — semua ini akan menggagalkan tes Anda tanpa kesalahan dari pihak Anda.

Mengapa itu terjadi: Keberhasilan tes terhubung dengan kesehatan dan kinerja sistem eksternal.

Perbaikan:

Mock dan Stub Layanan Eksternal: Ini adalah strategi terpenting. Alih-alih melakukan panggilan HTTP nyata, cegat permintaan dan kembalikan respons palsu yang telah ditentukan sebelumnya yang mensimulasikan kasus keberhasilan atau kesalahan.
Gunakan Alat untuk Mocking: Di sinilah Apidog bersinar. Apidog memungkinkan Anda untuk membuat mock yang kuat untuk API Anda. Anda dapat menentukan dengan tepat respons apa yang harus dikembalikan oleh API untuk permintaan tertentu, sepenuhnya menghilangkan ketergantungan pada layanan eksternal yang nyata dan tidak stabil. Tes Anda menjadi cepat, andal, dan dapat diprediksi.
Gunakan Virtualisasi Layanan: Untuk skenario yang lebih kompleks, alat yang mensimulasikan perilaku seluruh sistem eksternal dapat digunakan.

4. Data Tes yang Tidak Terkelola

Mirip dengan masalah isolasi, tetapi lebih luas. Jika tes Anda mengasumsikan status basis data tertentu (misalnya, "harus ada tepat 5 pengguna" atau "produk dengan ID 123 harus ada"), mereka akan gagal saat asumsi itu salah. Ini sering terjadi dengan tes yang dijalankan terhadap basis data pengembangan atau staging bersama yang terus berubah.

Mengapa itu terjadi: Tes membuat asumsi implisit tentang status data lingkungan.

Perbaikan:

Kelola Semua Data secara Eksplisit: Sebuah tes seharusnya tidak pernah berasumsi apa pun tentang dunia. Tes harus membuat semua data yang dibutuhkan untuk berjalan.
Gunakan Pabrik dan Fixture: Pustaka seperti factory_bot (Ruby) atau pola serupa dalam bahasa lain membantu Anda dengan mudah menghasilkan data yang tepat yang dibutuhkan untuk setiap tes.
Hindari ID yang Dikodekan Secara Keras (Hard-Coded IDs): Jangan pernah bergantung pada ID rekaman tertentu yang ada. Buat rekaman dan gunakan ID yang dihasilkan dalam pernyataan tes Anda.

5. Konkurensi dan Eksekusi Tes Paralel

Menjalankan tes secara paralel sangat penting untuk kecepatan. Namun, jika tes Anda tidak dirancang untuk itu, mereka akan saling menginjak. Dua tes yang berjalan pada waktu yang sama mungkin mencoba mengakses file yang sama, menggunakan port yang sama pada server lokal, atau memodifikasi rekaman basis data yang sama.

Mengapa itu terjadi: Tes dieksekusi secara bersamaan tetapi ditulis dengan asumsi bahwa mereka akan berjalan sendiri.

Perbaikan:

Rancang untuk Paralelisme Sejak Awal: Asumsikan tes akan berjalan secara paralel.
Isolasi Sumber Daya: Pastikan setiap pelari tes paralel memiliki lingkungan terisolasi sendiri: skema basis data yang unik, port yang unik untuk server lokal, dll.
Gunakan Operasi yang Aman untuk Thread (Thread-Safe Operations): Perhatikan setiap status bersama dalam memori.

6. Ketergantungan pada Waktu Sistem

"Apakah tes ini gagal setelah jam 5 sore?" Kedengarannya konyol, tapi itu terjadi. Tes yang menggunakan waktu sistem nyata (new Date(), DateTime.Now) dapat berperilaku berbeda tergantung pada kapan mereka dijalankan. Tes yang memeriksa apakah "laporan harian" telah dibuat mungkin berhasil ketika dijalankan sekali pada pukul 11:59 malam dan kemudian gagal ketika dijalankan lagi dua menit kemudian pada pukul 12:01 pagi.

Mengapa itu terjadi: Jam sistem adalah masukan eksternal yang berubah.

Perbaikan:

Mock Waktu: Gunakan pustaka yang memungkinkan Anda "membekukan" atau "berjalan" dalam waktu. Pustaka seperti timecop (Ruby), freezegun (Python), atau Mockito's mockStatic untuk java.time (Java) memungkinkan Anda mengatur waktu tertentu untuk tes Anda, membuatnya sepenuhnya deterministik.

7. Kode Non-Deterministik dalam Tes

Yang satu ini halus. Jika kode yang sedang diuji bersifat non-deterministik (misalnya, menggunakan generator angka acak atau mengocok daftar), tes Anda tidak dapat membuat pernyataan yang konsisten tentang keluarannya.

Mengapa itu terjadi: Logika aplikasi itu sendiri memiliki keacakan.

Perbaikan:

Seed Generator Angka Acak: Sebagian besar generator angka acak dapat di-seed dengan nilai tetap. Ini membuat urutan angka "acak" identik setiap saat, membuat tes deterministik.
Uji Perilaku, Bukan Implementasi: Alih-alih menegaskan output persis dari fungsi shuffle() (yang, menurut definisi, acak), tegaskan perilakunya. Misalnya, tegaskan bahwa daftar output berisi semua elemen yang sama dengan daftar input, hanya dalam urutan yang berbeda. Atau, mock fungsi shuffle untuk mengembalikan urutan tetap selama tes.

8. Pemilih UI yang Rapuh (Brittle UI Selectors)

Ini adalah ketidakstabilan tes front-end klasik. Tes Anda menemukan elemen di halaman menggunakan pemilih CSS seperti #main > div > div > div:nth-child(3) > button. Seorang pengembang kemudian sedikit menyesuaikan struktur HTML—menambahkan div baru untuk gaya—dan boom, pemilih Anda rusak, meskipun fungsionalitasnya baik-baik saja.

Mengapa itu terjadi: Pemilih terlalu erat terhubung dengan struktur DOM, yang tidak stabil.

Perbaikan:

Gunakan Locator yang Kuat: Prioritaskan pemilih yang cenderung tidak berubah.
Terbaik: Gunakan atribut data-testid khusus (misalnya, <button data-testid="sign-up-button">). Ini memisahkan pengujian dari gaya dan struktur.
Bagus: Gunakan ID (#submit-button), tetapi hanya jika stabil dan tidak digunakan untuk CSS.
Oke: Gunakan peran ARIA atau konten teks, tetapi berhati-hatilah terhadap internasionalisasi dan perubahan teks.
Hindari: Jalur CSS/XPath kompleks yang bersarang berdasarkan struktur.

9. Kebocoran Sumber Daya dan Kegagalan Pembersihan

Tes yang tidak menutup sumber daya dengan benar dapat menyebabkan tes berikutnya gagal dengan cara yang aneh. Ini bisa berupa membiarkan koneksi basis data terbuka, tidak menutup instance browser, atau tidak menghapus file sementara. Akhirnya, sistem kehabisan sumber daya, menyebabkan batas waktu atau crash.

Mengapa itu terjadi: Kode tes tidak memiliki logika pembersihan/penghapusan yang tepat.

Perbaikan:

Gunakan Hook beforeEach/afterEach: Strukturkan tes Anda untuk selalu membersihkan dalam fase pembersihan khusus, bahkan jika tes gagal. Sebagian besar kerangka kerja tes menyediakan hook untuk ini.
Gunakan Pola yang Tepat: Gunakan pola seperti pernyataan using (C#) atau try-with-resources (Java) untuk memastikan sumber daya ditutup secara otomatis.

10. Inkonsistensi Lingkungan

"Tesnya berfungsi di mesin saya!" Teriakan klasik ini sering disebabkan oleh ketidakstabilan lingkungan. Perbedaan dalam sistem operasi, versi browser, versi Node.js, pustaka yang terinstal, atau variabel lingkungan antara mesin lokal pengembang dan server CI dapat menyebabkan tes gagal secara tidak terduga.

Mengapa itu terjadi: Lingkungan tes tidak dapat direproduksi.

Perbaikan:

Kontainerisasi Semuanya: Gunakan Docker untuk mendefinisikan lingkungan tes Anda. Sebuah Dockerfile memastikan bahwa setiap tes berjalan—lokal dan CI—terjadi dalam lingkungan yang identik dan terkontrol.
Pin Versi Semuanya: Gunakan package-lock.json, Gemfile.lock, Pipfile.lock, dll., untuk mengunci versi yang tepat dari semua dependensi Anda.
Kelola Konfigurasi dengan Aman: Gunakan metode yang konsisten dan aman untuk menangani variabel lingkungan dan rahasia yang dibutuhkan untuk pengujian.

Cara Mendeteksi Tes yang Tidak Stabil di Pipeline Anda

Mendeteksi tes yang tidak stabil sejak dini adalah kuncinya. Berikut adalah strateginya:

Jalankan ulang tes secara otomatis → Jika tes berhasil setelah dijalankan ulang, tandai sebagai tidak stabil.
Lacak pola kegagalan → Log CI/CD sering mengungkapkan tes tidak stabil yang berulang.
Isolasi tes yang tidak stabil → Beri tag dan jalankan secara terpisah sampai diperbaiki.
Gunakan alat pemantauan → Alat seperti Jenkins, CircleCI, dan GitHub Actions dapat melaporkan ketidakstabilan tes.

Mengurangi Tes yang Tidak Stabil dengan Apidog

Karena banyak tes yang tidak stabil terkait dengan API dan dependensi eksternal, Apidog membantu Anda:

Membuat server mock sehingga Anda tidak bergantung pada API nyata yang tidak stabil.
Mengotomatiskan skenario tes dengan hasil yang dapat diprediksi.
Menjalankan tes kinerja untuk melihat bagaimana API berperilaku di bawah tekanan.
Mempusatkan semua tes API Anda sehingga Anda dapat mendeteksi perilaku tidak stabil sejak dini.

Alih-alih men-debug kegagalan acak pada jam 2 pagi, Anda akan tahu persis apakah itu kode Anda atau dependensi eksternal yang tidak stabil.

button

Praktik Terbaik untuk Menghindari Tes yang Tidak Stabil

Berikut adalah daftar periksa singkat untuk mengurangi ketidakstabilan tes:

Tulis tes deterministik dengan hasil yang dapat diprediksi.
Gunakan mock/stub untuk API dan jaringan.
Hindari penundaan yang dikodekan secara keras—gunakan penantian berbasis peristiwa.
Reset lingkungan tes di antara setiap eksekusi.
Pantau tes dari waktu ke waktu untuk menemukan pola yang tidak stabil.
Dokumentasikan tes tidak stabil yang diketahui agar tim mengetahuinya.

Membangun Budaya Anti-Ketidakstabilan

Memperbaiki tes individual adalah satu hal; mencegahnya adalah hal lain. Ini membutuhkan budaya tim yang menghargai keandalan tes.

Jangan Toleransi Ketidakstabilan: Jika sebuah tes tidak stabil, segera karantina. Pindahkan ke suite terpisah yang tidak menghalangi agar tidak menghambat deployment, tetapi jadwalkan waktu untuk memperbaikinya secepatnya.
Lacak Tes yang Tidak Stabil: Simpan daftar tes tidak stabil yang diketahui dan prioritaskan perbaikannya.
Tinjau Tes dalam Tinjauan Kode: Perlakukan kode tes dengan keseriusan yang sama seperti kode produksi. Cari anti-pola yang telah kita diskusikan selama tinjauan.

Kesimpulan: Dari Tidak Stabil menjadi Kuat

Tes yang tidak stabil adalah salah satu masalah paling membuat frustrasi dalam pengembangan perangkat lunak, mereka adalah gangguan, tetapi mereka adalah masalah yang dapat dipecahkan. Mereka membuang waktu, menciptakan ketidakpercayaan, dan memperlambat rilis. Dengan memahami 10 penyebab utama ini—mulai dari penantian asinkron dan isolasi tes hingga mock eksternal dan pemilih yang rapuh—Anda mendapatkan kekuatan untuk tidak hanya memperbaikinya tetapi juga untuk menulis tes yang lebih kuat dan andal sejak awal, Anda dapat memperbaikinya secara sistematis.

Ingat, suite tes adalah sistem peringatan dini yang kritis untuk kesehatan aplikasi Anda. Nilainya berbanding lurus dengan kepercayaan yang dimiliki tim pengembangan terhadapnya. Dengan menghilangkan ketidakstabilan secara kejam, Anda membangun kembali kepercayaan itu dan menciptakan alur kerja pengembangan yang lebih cepat dan lebih percaya diri. Strategi terbaik? Rancang tes yang deterministik, terisolasi, dan terstruktur dengan baik.

Dan untuk ketidakstabilan yang sangat rumit terkait API, ingatlah bahwa alat seperti Apidog bisa menjadi sekutu terkuat Anda. Kemampuan mocking dan pengujiannya dirancang khusus untuk menciptakan lingkungan yang stabil dan dapat diprediksi yang dibutuhkan tes Anda untuk berkembang. Apidog dapat menyelamatkan Anda dari penderitaan tes yang tidak stabil dengan mensimulasikan lingkungan yang stabil. Sekarang pergilah dan buat suite tes Anda tidak dapat dihancurkan.

button