Kembali ke Fable 5: Cara Mengarahkan Ulang Beban Kerja API dengan Aman

Ketika Claude Fable 5 tidak aktif pada 12 Juni 2026 di bawah kendali ekspor A.S., tim Anda melakukan apa yang dilakukan setiap tim: mengarahkan produksi ke Claude Opus 4.8 atau Sonnet 4.6, menambal prompt yang rusak, dan berlayar melewati celah tersebut. Kontrol dicabut pada 30 Juni, dan Fable 5 kembali aktif mulai 1 Juli di seluruh Claude.ai, API, Claude Code, dan Cowork. Anthropic mengonfirmasi penyebaran ulang penuh dalam pengumuman resminya.

Langkah yang menggoda adalah mengembalikan satu komit dan menyudahinya. Jangan lakukan itu. Layanan yang Anda gunakan kembali tidak sama persis dengan yang Anda tinggalkan; lapisan keamanan dilatih ulang selama pemadaman, platform cloud masih mengejar, dan dasar Opus 4.8 yang telah Anda jalankan selama tiga minggu sekarang adalah tolok ukur paling berguna yang Anda miliki. Buku panduan ini menjelaskan peralihan secara berurutan, dengan pemeriksaan regresi di tengahnya, sehingga Anda mengaktifkan kembali produksi berdasarkan bukti daripada memori otot.

button

Inventarisasi apa yang berubah saat Anda tidak ada

Tiga hal bergerak antara 12 Juni dan 1 Juli. Satu hal tidak.

Pengklasifikasi keamanan dilatih ulang. Fable 5 yang disebarkan ulang dilengkapi dengan pengklasifikasi keamanan yang dilatih ulang yang menargetkan teknik jailbreak yang dilaporkan selama periode pemadaman. Anthropic mengatakan bahwa ia memblokir lebih dari 99% upaya terhadap teknik tersebut. Permintaan yang ditandai tidak gagal: permintaan tersebut secara otomatis dialihkan ke Claude Opus 4.8, dan responsnya membawa pemberitahuan yang menyatakan demikian. Lebih dari 95% sesi tidak pernah melihat cadangan. Untuk migrasi, pelajaran yang diambil sempit tetapi penting: prompt Anda sekarang berjalan dengan lapisan keamanan yang sedikit berbeda daripada yang terjadi pada awal Juni. Uji ulang alih-alih mengasumsikan.

Periksa status platform cloud Anda. Amazon Bedrock memulihkan Fable 5 pada 1 Juli, hari yang sama dengan API pihak pertama, meskipun profil inferensi regional dapat diluncurkan secara tidak merata. Google Vertex AI dan Microsoft Foundry mungkin masih mengejar; panduan Anthropic untuk platform yang masih tertunda adalah "secepat mungkin," tanpa tanggal pasti. Jika beban kerja Anda berjalan melalui penyedia cloud, konfirmasikan Fable 5 aktif di platform dan wilayah Anda sebelum Anda menjadwalkan apa pun.

Paket langganan memiliki tanggal untuk diperhatikan. Jika rekan tim menggunakan Claude dengan paket langganan daripada kunci API, perubahan kredit-paket akan berlaku pada 7 Juli. Ini tidak menyentuh penagihan API, tetapi konfirmasikan bagaimana hal itu memengaruhi penggunaan Claude Code atau Cowork pada paket-paket tersebut sebelum Anda berkomitmen tim ke alur kerja Fable 5 yang lebih berat.

Model itu sendiri tidak berubah. ID yang sama, claude-fable-5. Jendela konteks default 1 juta token yang sama, output maksimum 128K yang sama, biaya $10 per juta token input dan $50 per juta token output yang sama. Ikhtisar model mencerminkan entri yang sama seperti pada awal Juni. Payload permintaan Anda dari sebelum pemadaman masih valid. Yang perlu diverifikasi ulang adalah perilaku, bukan sintaksis.

Verifikasi ulang akses dengan satu permintaan minimal

Sebelum menyentuh konfigurasi produksi, kirim satu permintaan dari lingkungan yang akan melayani lalu lintas: jalur jaringan yang sama, kunci yang sama, versi SDK yang sama. Anda mengonfirmasi dua hal. Kredensial Anda dapat menjangkau model, dan model yang menjawab adalah yang Anda minta.

Pemeriksaan cepat dari terminal:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-fable-5",
    "max_tokens": 256,
    "messages": [{
      "role": "user",
      "content": "Summarize this changelog entry in one sentence: Added retry logic to the payments webhook."
    }]
  }'

Dan probe yang sama melalui Python SDK, yang lebih dekat dengan apa yang dijalankan produksi:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-fable-5",
    max_tokens=256,
    messages=[{
        "role": "user",
        "content": "Summarize this changelog entry in one sentence: "
                   "Added retry logic to the payments webhook.",
    }],
)

print(response.model)        # expect "claude-fable-5"
print(response.stop_reason)  # expect "end_turn"
print(response.usage)        # token counts, for your cost model

Bidang yang paling penting adalah response.model. Ini menamai model yang melayani permintaan. Jika lapisan keamanan baru mengarahkan ulang panggilan Anda, bidang ini akan berbunyi claude-opus-4-8, yang persis sinyal yang akan Anda pantau setelah cutover. Memeriksanya sekarang, pada satu permintaan yang membosankan, menetapkan kebiasaan.

Dua mode kegagalan patut dikenali pada tahap ini. `404` pada model saat Anda memanggil melalui Bedrock, Vertex AI, atau Foundry biasanya berarti penyebaran ulang cloud belum mencapai wilayah Anda; verifikasi terhadap API asli sebelum mengajukan tiket. Dan `refusal` sebagai alasan penghentian pada probe yang jelas-jelas tidak berbahaya berarti bentuk permintaan Anda patut dicermati lebih dekat sebelum Anda meningkatkan skala, bukan sesudahnya. Jika Anda menghubungkan layanan baru daripada memulihkan yang lama, panduan penyiapan lengkap ada di cara menggunakan Claude Fable 5 API.

Buat uji regresi sebelum mengarahkan ulang produksi

Ini adalah langkah yang dilewatkan tim, dan ini adalah langkah yang memisahkan cutover hari Selasa yang bersih dari rollback Jumat malam. Anda telah melayani lalu lintas di Opus 4.8 sejak pertengahan Juni. Kecelakaan sejarah itu memberi Anda sesuatu yang berharga: dasar yang terukur dan hidup. Gunakan itu.

Tujuannya adalah serangkaian prompt nyata Anda, yang dijalankan terhadap claude-fable-5, dengan hasil yang dapat Anda sandingkan dengan angka Opus 4.8. Berikut adalah alur kerja di Apidog:

1. Kumpulkan prompt yang membayar tagihan Anda. Bukan tes sintetik. Jika Anda menjalankan copilot pengujian API, tarik 50 prompt produksi teratasnya: hasilkan kasus uji dari spesifikasi OpenAPI, jelaskan pernyataan yang gagal, susun respons tiruan untuk sebuah titik akhir. Jika Anda menjalankan titik akhir ringkasan dokumen, ambil sampel dokumen nyata di seluruh rentang ukuran Anda, dari catatan rilis dua paragraf hingga PDF 400 halaman yang membebani jendela konteks.

2. Kumpulkan sebagai skenario pengujian. Di Apidog, setiap prompt menjadi langkah permintaan terhadap POST /v1/messages dengan model diatur ke claude-fable-5. Variabel lingkungan menyimpan kunci API dan URL dasar, sehingga skenario yang sama berjalan terhadap kredensial staging dan produksi tanpa diedit.

3. Nyatakan apa yang bergantung pada produksi. Empat pernyataan mencakup sebagian besar mode kegagalan:

Status adalah 200.
Latensi berada di bawah ambang batas SLO Anda. Fable 5 berpikir sebelum menjawab, jadi tetapkan standar dari pengukuran pra-Juni Anda, bukan dari Opus 4.8.
Bidang model dalam badan respons sama dengan claude-fable-5. Ini adalah pernyataan yang menangkap pengalihan senyap; rangkaian yang lulus konten tetapi dilayani oleh Opus 4.8 memberi tahu Anda bahwa prompt Anda memicu pengklasifikasi baru.
stop_reason adalah end_turn, dan bidang respons yang dibaca oleh parser Anda (bentuk JSON dari output terstruktur, blok usage yang dicerna oleh pipeline biaya Anda) hadir.

4. Jalankan dan bandingkan. Jalankan rangkaian terhadap claude-fable-5, lalu bandingkan laporannya dengan jalannya rangkaian Opus 4.8 yang sama: tingkat kelulusan, latensi p95, jumlah penolakan, kegagalan bentuk output. Perbedaan di sini murah. Perbedaan yang sama yang ditemukan dalam produksi tidak.

5. Amankan cutover di CI/CD. CLI Apidog menjalankan skenario yang identik di pipeline Anda, jadi permintaan tarik yang membalik string model hanya digabungkan ketika uji regresi berwarna hijau. Itu mengubah "kami pikir tidak apa-apa" menjadi artefak pembangunan.

Terus jalankan rangkaian setelah cutover juga. Jadwalkan setiap hari melalui peluncuran bertahap, karena pengalihan berbasis pengklasifikasi yang tidak pernah muncul dalam uji 50 prompt masih dapat muncul pada volume produksi. Rangkaian yang Anda buat untuk migrasi berfungsi ganda sebagai burung kenari yang mengawasinya.

Perhatikan pengalihan ke Opus 4.8

Begini tampilan fallback dari kursi operator: permintaan berhasil, penyelesaian koheren, status HTTP adalah 200. Tetapi response.model berbunyi claude-opus-4-8 dan responsnya membawa pemberitahuan bahwa permintaan dialihkan. Tidak ada dalam penanganan kesalahan Anda yang terpicu, karena tidak ada yang salah. Profil latensi Anda, biaya per token, dan gaya output bergeser untuk satu panggilan itu, secara senyap, kecuali Anda mencatat bidang yang benar.

Dua bidang per panggilan sudah cukup: model yang melayani dan blok usage. Keluarkan keduanya ke tumpukan observabilitas apa pun yang sudah Anda jalankan, dan atur peringatan pada tingkat pengalihan. Karena lebih dari 95% sesi tidak melihat fallback, lonjakan yang berkelanjutan di atas beberapa persen berarti sesuatu yang spesifik: templat prompt di produk Anda menyerupai pola yang ditargetkan oleh pengklasifikasi yang dilatih ulang. Itu adalah tiket rekayasa prompt, bukan insiden, tetapi hanya jika Anda menangkapnya di dasbor daripada email pelanggan.

Untuk permintaan yang lebih baik Anda pulihkan secara otomatis, parameter fallbacks (dalam versi beta di Claude API dan Claude Platform di AWS) mencoba lagi atau mengalihkan penolakan dalam panggilan yang sama, tanpa putaran kedua dari kode Anda. Ini mengubah cara Anda harus menyusun logika percobaan ulang, jadi ada baiknya membaca panduan khusus untuk parameter fallbacks Fable 5 sebelum Anda membangun loop percobaan ulang Anda sendiri di sekitar penolakan.

Jalankan ulang perhitungan biaya

Selama tiga minggu tagihan Anda telah dihargai dengan tarif Opus 4.8. Fable 5 berharga sekitar dua kali lipat per token: $10 per juta input dan $50 per juta output, tidak berubah dari harga dalam pengumuman peluncuran asli. Beralih kembali adalah peningkatan pengeluaran yang disengaja, dan keuangan akan menyadarinya meskipun tidak ada orang lain yang menyadarinya.

Sebelum cutover, tarik penggunaan Opus 4.8 Anda untuk jendela fallback dan kalikan ke depan dengan tarif Fable 5. Kemudian terapkan diskon caching, karena di situlah perhitungan menjadi menarik untuk beban kerja agen. Caching prompt di Fable 5 memiliki diskon 90%, yang menetapkan harga cache hits sebesar $1,00 per juta token. Loop agen yang mengirim ulang prompt sistem dan definisi alat yang besar dan stabil pada setiap iterasi dapat melayani sebagian besar token inputnya dari cache. Titik akhir ringkasan dokumen dengan dokumen unik per permintaan tidak dapat. Model yang sama, daftar harga yang sama, biaya efektif per permintaan yang berbeda.

Beberapa tim akan menyelesaikan aritmatika ini dan menyimpulkan bahwa sebagian lalu lintas mereka harus tetap di Opus 4.8. Itu adalah hasil yang sah, bukan migrasi yang gagal. Sisi kemampuan dari keputusan itu dibahas di Fable 5 vs Opus 4.8; versi singkatnya adalah Anda membayar premi untuk penalaran horizon panjang, dan penyelesaian rutin jarang membutuhkannya.

Daftar periksa cutover

Jalankan ini dari atas ke bawah. Melompat ke depan adalah bagaimana penyebaran hari Jumat terjadi.

Sematkan ID model ke claude-fable-5 di konfigurasi, bukan di literal string yang tersebar.
Jika Anda melayani melalui Bedrock, Vertex AI, atau Foundry, konfirmasikan Fable 5 aktif di platform dan wilayah Anda sebelum menjadwalkan apa pun.
Rangkaian regresi hijau di Apidog, dengan hasil dibandingkan dengan dasar Opus 4.8 yang telah dijalankan.
Lakukan peluncuran bertahap: 5% dari lalu lintas, lalu 25%, lalu 100%, dengan setidaknya satu hari kerja di setiap langkah.
Catat response.model dan usage pada setiap panggilan dari permintaan canary pertama dan seterusnya.
Definisikan pemicu rollback secara tertulis sebelum cutover: misalnya, tingkat pengalihan di atas 5%, latensi p95 di luar SLO, atau tingkat kesalahan parser di atas dasar. Setiap pemicu tunggal mengembalikan pembagian lalu lintas.
Berikan peringatan pada tingkat penolakan dan pengalihan, bukan hanya pada kesalahan HTTP. Mode kegagalan di sini mengembalikan 200.
Jaga agar jalur Opus 4.8 dapat diterapkan. Anda membangunnya di bawah tekanan pada bulan Juni; itu adalah rencana rollback Anda sekarang.

FAQ

Apakah Fable 5 yang disebarkan ulang adalah model yang sama dengan yang offline pada bulan Juni? ID model yang sama, spesifikasi yang sama, harga yang sama: claude-fable-5, konteks 1 juta, output maks 128K, $10/$50 per juta token. Perbedaannya adalah pengklasifikasi keamanan yang dilatih ulang yang berada di depannya, yang mengalihkan permintaan yang ditandai ke Opus 4.8. Itulah mengapa panduan ini bersikeras pada uji regresi alih-alih pengembalian langsung.

Apa yang terjadi jika salah satu permintaan saya ditandai? Tidak gagal. Permintaan secara otomatis dialihkan ke Claude Opus 4.8, selesai di sana, dan responsnya menyertakan pemberitahuan ditambah model yang melayani di bidang model. Lebih dari 95% sesi tidak pernah mengalami ini. Jika beban kerja Anda sering melihatnya, tinjau prompt yang memicunya dan pertimbangkan parameter fallbacks beta untuk penanganan terkontrol.

Haruskah saya menghapus kode failover yang saya tulis selama pemadaman? Tidak. Pemadaman membuktikan bahwa dependensi model tunggal rapuh, dan lapisan perutean yang Anda bangun adalah kemenangan yang tahan lama dari bulan yang buruk. Simpan sebagai jalur rollback Anda dan formalisasi; merancang failover untuk AI API mencakup cara mengubah tambalan darurat menjadi arsitektur.

Menyelesaikan peralihan

Kembali ke Fable 5 adalah migrasi, meskipun ID model tidak pernah berubah. Perlakukan seperti itu: verifikasi akses dengan satu permintaan, jalankan prompt nyata Anda sebagai rangkaian regresi terhadap lapisan keamanan yang dilatih ulang, bandingkan hasilnya dengan dasar Opus 4.8 yang telah Anda kumpulkan sejak Juni, dan luncurkan secara bertahap dengan response.model pada dasbor. Tim yang melakukan ini akan kembali menggunakan Fable 5 pada akhir minggu dengan angka untuk membuktikan bahwa itu aman. Jika Anda menginginkan uji regresi dan gerbang CI/CD dalam satu alat, Unduh Apidog dan bangun skenarionya sebelum Anda menyentuh konfigurasi.

button