不安定なテストの主な原因トップ10（解決策付き）

やあ、同僚のデベロッパーの皆さん！自動テストに取り組んだことがあるなら、コードに何も変更がないのにテストが失敗するのを見たときの、あの嫌な気持ちを知っているでしょう。きっと誰もが経験していることだと思います。あなたは丹精込めて書いたコードをプッシュし、これまでの最高の出来だと自信を持っています。継続的インテグレーション（CI）パイプラインをトリガーし、満足のいく緑色のチェックマークを待ちます。しかし、代わりに大きな、怒ったような赤いXが表示されます。心臓が沈みます。「何を壊してしまったんだ！？」と、必死にログを確認しますが、見つかるのは…ランダムなテストの失敗です。再実行すると、時には合格し、時には失敗します。

聞き覚えがありますか？そう、あなたは今、フレイキーテストの犠牲になったのです。

そして、これが真実です。フレイキーテストは開発者の時間を無駄にし、CI/CDパイプラインを遅らせ、チーム全体に多大なフラストレーションを生み出します。フレイキーテストは、ソフトウェア開発における取り憑いたポルターガイストのようなものです。予測不能かつランダムに失敗し、テストプロセス全体への信頼を損ない、数え切れないほどの調査時間を無駄にし、デリバリーを著しく遅らせます。実際、それらは非常に普遍的な問題であるため、Googleのような業界リーダーも、それらを排除するための広範な研究を発表しています。

しかし、良いニュースがあります。フレイキーテストは魔法ではありません。それらには特定の、特定可能な原因があります。そして、特定できるものは修正できます。根本原因を理解すれば、対処することができます。

💡

美しいAPIドキュメントを生成する優れたAPIテストツールが欲しいですか？

開発チームが最大限の生産性で協力できる、統合されたオールインワンプラットフォームが欲しいですか？

Apidogはあなたのすべての要求に応え、Postmanをはるかに手頃な価格で置き換えます！

button

そもそもフレイキーテストとは？

原因を挙げる前に、まず私たちの宿敵を定義しましょう。フレイキーテストとは、同じ、同一バージョンのコードで複数回実行されたときに、合格と失敗の両方の挙動を示すテストのことです。バグのために一貫して失敗するテストではありません。一貫性なく失敗するため、コードの健全性を示すノイズの多い、信頼できない指標となります。

例：

実行 #1 → ✅ 合格
実行 #2 → ❌ 失敗
実行 #3 → ✅ 再び合格

これらのテストのコストは計り知れません。それらは以下につながります。

「再実行して祈る」サイクル： 開発者とCIのリソースを無駄にします。
アラート疲れ： テストが理由もなく頻繁に失敗すると、チームは失敗を無視し始め、結果として実際のバグが見過ごされます。
開発速度の低下： ビルドの破損と調査時間がチーム全体の速度を低下させます。

フレイキーテストがチームにとって危険な理由

あなたは「たった一つのテストが失敗しただけだ、再実行すればいい」と思うかもしれません。しかし、問題はここにあります。

信頼の喪失 → 開発者はテスト結果を信頼しなくなります。
CI/CDの遅延 → パイプラインが再試行で詰まります。
隠れたバグ → 人々が「ああ、これはただのフレイキーテストだ」と考えるため、実際の問題が見過ごされます。
コストの増加 → 再実行が増えるほど、時間、リソース、インフラストラクチャが増加します。

業界の研究によると、一部の企業はテスト時間の最大40%をフレイキーテストの対処に費やしています。これは莫大な量です！

では、いつもの容疑者たちを見ていきましょう。

フレイキーテストの原因と修正

1. 非同期操作と競合状態

これは間違いなくフレイキーテストの王様です。現代のアプリケーションでは、API呼び出し、データベース操作、UI更新など、すべてが非同期です。テストがこれらの操作の完了を適切に待たない場合、それは本質的に推測していることになります。時には正しく推測し（操作が速く完了する）、時には間違って推測し（操作が遅い）、失敗につながります。

発生する理由： テストコードは同期的に実行されますが、テスト対象のアプリケーションコードはそうではありません。

例：「保存」ボタンをクリックし、保存操作のネットワークリクエストが完了するのを待たずに、すぐにデータベースに新しいレコードがあるかを確認するテスト。

修正策：

明示的な待機を使用する： 静的な sleep() や setTimeout() の呼び出しは絶対に使用しないでください。これらは、待機しすぎ（テストの速度低下）または待機が不十分（失敗の原因）のいずれかになるため、フレイキーテストの主要な原因となります。
待機戦略を採用する： 特定の条件を待機できるツールを使用します。例えば：
UIテスト： 要素が表示される、クリック可能になる、または特定のテキストを含むまで待機します。
APIテスト： 特定のHTTP応答ステータス、またはデータベースにペイロードが表示されるまで待機します。
Selenium/WebDriver： WebDriverWait を expected_conditions とともに使用します。
Cypress： Cypressには、ほとんどのコマンドに自動待機機能が組み込まれており、この問題を回避するのに非常に優れています。

2. テスト分離の問題

テストは礼儀正しい見知らぬ人のようであるべきです。次の人のために散らかしたままにすべきではありません。テストが状態を共有し、後片付けをしない場合、互いに簡単に干渉する可能性があります。テストAがユーザー「test@example.com」を作成し、合格しても、それを削除しません。その後、テストBが同じユーザーを作成しようとして、一意性制約違反のために失敗します。

発生する理由： データベース、キャッシュ、ファイルシステムなどの共有リソースが、あるテストによって変更され、次のテストの開始状態が変わってしまうためです。

修正策：

完全な分離を確保する： 各テストは、必要なデータを独自にセットアップし、その後完全に破棄する必要があります。これが黄金律です。
トランザクションを使用する： 強力なパターンは、各テストをデータベーストランザクション内で実行し、最後にロールバックすることです。これにより、データベースは完全にクリーンな状態に保たれます。
一意のデータを生成する： 競合を避けるために、テストデータに一意の識別子（UUIDやタイムスタンプなど）を使用します。例えば、test.user.<timestamp>@example.com のようにします。

3. 外部サービスへの依存

あなたのテストスイートは、決済処理、天気データ、またはメール検証のためにサードパーティAPIを呼び出していますか？もしそうなら、あなたは完全に制御不能な大規模な障害点を導入しています。そのAPIは遅い、レート制限をかけてくる、メンテナンス中である、または応答形式がわずかに変更されている可能性があります。これらすべてが、あなたに何の落ち度もないのにテストを失敗させる原因となります。

発生する理由： テストの成功が外部システムの健全性とパフォーマンスに結合されているためです。

修正策：

外部サービスをモック化およびスタブ化する： これが最も重要な戦略です。実際のHTTP呼び出しを行う代わりに、リクエストをインターセプトし、成功またはエラーケースをシミュレートする偽の、事前に決定された応答を返します。
モック化ツールを使用する： ここでApidogが真価を発揮します。Apidogを使用すると、APIの強力なモックを作成できます。特定の要求に対してAPIがどのような応答を返すかを正確に定義でき、実際の不安定な外部サービスへの依存を完全に排除できます。テストは高速で信頼性が高く、予測可能になります。
サービス仮想化を使用する： より複雑なシナリオでは、外部システム全体の動作をシミュレートするツールを使用できます。

4. 管理されていないテストデータ

分離の問題に似ていますが、より広範です。テストがデータベースの特定の状態（例：「ユーザーが正確に5人いるはずだ」や「ID 123の製品が存在するはずだ」）を前提としている場合、その前提が誤った瞬間に失敗します。これは、常に変化する共有の開発データベースやステージングデータベースに対して実行されるテストでよく発生します。

発生する理由： テストが環境のデータ状態について暗黙的な仮定をしているためです。

修正策：

すべてのデータを明示的に管理する： テストは世界について何も仮定すべきではありません。実行に必要なすべてのデータを作成すべきです。
ファクトリとフィクスチャを使用する： factory_bot (Ruby)のようなライブラリや、他の言語の同様のパターンは、各テストに必要な正確なデータを簡単に生成するのに役立ちます。
ハードコードされたIDを避ける： 特定のレコードIDの存在に決して依存しないでください。レコードを作成し、生成されたIDをテストアサーションで使用します。

5. 並行処理と並列テスト実行

テストを並列で実行することは、速度のために不可欠です。しかし、テストがそのように設計されていない場合、互いに踏み潰し合ってしまいます。同時に実行されている2つのテストが、同じファイルにアクセスしようとしたり、ローカルサーバーの同じポートを使用したり、同じデータベースレコードを変更したりする可能性があります。

発生する理由： テストが同時に実行されるにもかかわらず、単独で実行されることを前提に書かれているためです。

修正策：

最初から並列処理を考慮して設計する： テストは並列で実行されると仮定します。
リソースを分離する： 各並列テストランナーが独自の分離された環境（一意のデータベーススキーマ、ローカルサーバー用の一意のポートなど）を持つようにします。
スレッドセーフな操作を使用する： 共有されるインメモリ状態に注意します。

6. システム時刻への依存

「このテストは午後5時以降に失敗するのか？」馬鹿げた話に聞こえるかもしれませんが、実際に起こります。実際のシステム時刻（new Date()、DateTime.Now）を使用するテストは、実行されるタイミングによって異なる動作をする可能性があります。「日次レポート」が生成されたかどうかを確認するテストは、午後11時59分に一度実行すると合格し、2分後の午前12時01分に再度実行すると失敗するかもしれません。

発生する理由： システムクロックが外部の、変化する入力であるためです。

修正策：

時刻をモック化する： 時間を「フリーズ」または「移動」できるライブラリを使用します。timecop (Ruby)、freezegun (Python)、またはMockitoのmockStatic (Javaのjava.time用)のようなライブラリを使用すると、テストに特定の時刻を設定でき、完全に決定論的にすることができます。

7. テスト内の非決定論的なコード

これは微妙な問題です。もしテスト対象のコードが非決定論的である（例えば、乱数ジェネレーターを使用したり、リストをシャッフルしたりする）場合、テストはその出力に対して一貫したアサーションを行うことができません。

発生する理由： アプリケーションロジック自体にランダム性があるためです。

修正策：

乱数ジェネレーターをシードする： ほとんどの乱数ジェネレーターは固定値でシードできます。これにより、「ランダムな」数値のシーケンスが毎回同じになり、テストが決定論的になります。
実装ではなく振る舞いをテストする： shuffle() 関数の正確な出力（定義上ランダム）をアサートするのではなく、振る舞いをアサートします。例えば、出力リストが入力リストと同じ要素をすべて含んでいるが、順序が異なることをアサートします。または、テスト中にシャッフル関数が固定の順序を返すようにモック化します。

8. 脆弱なUIセレクター

これは古典的なフロントエンドテストの不安定さです。あなたのテストは、#main > div > div > div:nth-child(3) > button のようなCSSセレクターを使用してページ上の要素を見つけます。その後、開発者がスタイリングのために新しいdivを追加するなど、HTML構造をわずかに調整すると、機能は完全に問題ないにもかかわらず、あなたのセレクターは壊れてしまいます。

発生する理由： セレクターがDOM構造に密接に結合されすぎているためです。DOM構造は不安定です。

修正策：

堅牢なロケーターを使用する： 変更されにくいセレクターを優先します。
最適： 専用の data-testid 属性を使用する（例：<button data-testid="sign-up-button">）。これにより、テストがスタイリングや構造から切り離されます。
良好： ID（#submit-button）を使用するが、安定しておりCSSに使用されていない場合に限る。
許容： ARIAロールまたはテキストコンテンツを使用するが、国際化やテキストの変更に注意する。
避けるべき： 構造に基づいた複雑なネストされたCSS/XPathパス。

9. リソースリークとクリーンアップの失敗

リソースを適切に閉じないテストは、後続のテストが奇妙な方法で失敗する原因となる可能性があります。これは、開いたままのデータベース接続、閉じられないブラウザインスタンス、または削除されない一時ファイルなどです。最終的に、システムはリソース不足になり、タイムアウトやクラッシュを引き起こします。

発生する理由： テストコードに適切なティアダウン/クリーンアップロジックがないためです。

修正策：

beforeEach/afterEachフックを使用する： テストが失敗した場合でも、専用のティアダウンフェーズで常にクリーンアップするようにテストを構成します。ほとんどのテストフレームワークは、このためのフックを提供しています。
適切なパターンを採用する： using ステートメント (C#) や try-with-resources (Java) のようなパターンを使用して、リソースが自動的に閉じられるようにします。

10. 環境の不整合

「私のマシンではテストが動くのに！」この古典的な叫びは、しばしば環境の不安定さが原因です。開発者のローカルマシンとCIサーバーの間で、オペレーティングシステム、ブラウザバージョン、Node.jsバージョン、インストールされているライブラリ、または環境変数の違いが、テストを予測不能に失敗させる可能性があります。

発生する理由： テスト環境が再現可能ではないためです。

修正策：

すべてをコンテナ化する： Dockerを使用してテスト環境を定義します。Dockerfile は、ローカルおよびCIでのすべてのテスト実行が、同一の制御された環境で行われることを保証します。
すべてのバージョンを固定する： package-lock.json、Gemfile.lock、Pipfile.lock などを使用して、すべての依存関係の正確なバージョンを固定します。
設定を安全に管理する： テストに必要な環境変数とシークレットを処理するための、一貫性のある安全な方法を使用します。

パイプラインでフレイキーテストを検出する方法

フレイキーテストを早期に発見することが重要です。戦略は以下の通りです。

テストを自動的に再実行する → 再実行後にテストが合格した場合、それをフレイキーとしてマークします。
失敗パターンを追跡する → CI/CDログは、頻繁に発生するフレイキーテストを明らかにすることがよくあります。
フレイキーテストを隔離する → タグを付けて、修正されるまで個別に実行します。
監視ツールを使用する → Jenkins、CircleCI、GitHub Actionsのようなツールは、テストの不安定さを報告できます。

Apidogでフレイキーテストを削減する

多くのフレイキーテストはAPIや外部依存関係に関連しているため、Apidogは以下をサポートします。

不安定な実際のAPIに依存しないように、モックサーバーを作成します。
予測可能な結果でテストシナリオを自動化します。
APIが負荷下でどのように動作するかを確認するためにパフォーマンステストを実行します。
すべてのAPIテストを一元化し、不安定な動作を早期に検出できるようにします。

午前2時にランダムな失敗をデバッグする代わりに、それがあなたのコードによるものなのか、不安定な外部依存関係によるものなのかを正確に知ることができます。

button

フレイキーテストを回避するためのベストプラクティス

テストの不安定さを軽減するための簡単なチェックリストです。

予測可能な結果を持つ決定論的なテストを作成します。
APIやネットワークにはモック/スタブを使用します。
ハードコードされた遅延を避け、イベント駆動型の待機を使用します。
実行間でテスト環境をリセットします。
時間の経過とともにテストを監視し、不安定なパターンを特定します。
既知の不安定なテストを文書化し、チームが認識できるようにします。

不安定さに対抗する文化を構築する

個々のテストを修正することと、それを防ぐことは別の話です。テストの信頼性を重視するチーム文化が必要です。

不安定さを許容しない： テストが不安定な場合は、すぐに隔離します。デプロイをブロックしないように別の、ブロックしないスイートに移動させますが、できるだけ早く修正する時間を確保します。
不安定なテストを追跡する： 既知の不安定なテストの目に見えるリストを保持し、それらの修正を優先します。
コードレビューでテストをレビューする： テストコードを本番コードと同じくらい真剣に扱います。レビュー中に議論したアンチパターンを探します。

結論：不安定な状態から堅牢な状態へ

フレイキーテストはソフトウェア開発において最も苛立たしい問題の一つであり、厄介ではありますが、解決可能な問題です。それらは時間を無駄にし、不信感を生み出し、リリースを遅らせます。非同期待機やテスト分離から外部モックや脆弱なセレクターに至るまでのこれら上位10の原因を理解することで、それらを修正するだけでなく、最初からより堅牢で信頼性の高いテストを作成する力を得て、体系的に修正することができます。

覚えておいてください、テストスイートはアプリケーションの健全性を示す重要な早期警告システムです。その価値は、開発チームがそれに抱く信頼に正比例します。不安定さを徹底的に排除することで、その信頼を再構築し、より迅速で自信に満ちた開発ワークフローを構築できます。最善の戦略は？決定論的で、分離されており、適切に構造化されたテストを設計することです。

特に厄介なAPI関連の不安定さについては、Apidogのようなツールがあなたの最も強力な味方となり得ることを忘れないでください。そのモック機能とテスト機能は、テストが成功するために必要な安定した予測可能な環境を作成するために特別に設計されています。Apidogは安定した環境をシミュレートすることで、不安定なテストによる苦痛からあなたを救うことができます。さあ、あなたのテストスイートを壊れないものにしましょう。

button