Quay lại Fable 5: Hướng dẫn định tuyến lại khối lượng công việc API an toàn

Fable 5 đã hoạt động trở lại sau đợt ngừng hoạt động tháng Sáu. Một sổ tay hướng dẫn thực tiễn để chuyển hướng các tải công việc API từ Opus 4.8: kiểm thử hồi quy, giám sát chuyển hướng, tính toán chi phí.

Ashley Goolam

Ashley Goolam

2 tháng 7 2026

Quay lại Fable 5: Hướng dẫn định tuyến lại khối lượng công việc API an toàn

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Khi Claude Fable 5 ngừng hoạt động vào ngày 12 tháng 6 năm 2026 theo quy định kiểm soát xuất khẩu của Hoa Kỳ, nhóm của bạn đã làm điều mà mọi nhóm đều làm: chuyển hướng sản xuất sang Claude Opus 4.8 hoặc Sonnet 4.6, vá các lời nhắc bị lỗi và triển khai xung quanh khoảng trống đó. Các biện pháp kiểm soát đã được dỡ bỏ vào ngày 30 tháng 6, và Fable 5 đã trở lại kể từ ngày 1 tháng 7 trên Claude.ai, API, Claude Code và Cowork. Anthropic đã xác nhận việc triển khai đầy đủ trong thông báo chính thức của mình.

Động thái hấp dẫn là hoàn tác một commit và kết thúc công việc. Đừng làm vậy. Dịch vụ bạn quay trở lại không hoàn toàn giống từng byte với dịch vụ bạn đã rời đi; lớp an toàn đã được huấn luyện lại trong thời gian ngừng hoạt động, các nền tảng đám mây vẫn đang trong quá trình cập nhật, và tiêu chuẩn Opus 4.8 mà bạn đã chạy trong ba tuần qua hiện là thước đo hữu ích nhất mà bạn có. Quy trình này sẽ hướng dẫn bạn cách chuyển đổi theo thứ tự, với một lần chạy thử hồi quy ở giữa, để bạn đưa sản xuất trở lại dựa trên bằng chứng chứ không phải theo thói quen.

nút

Kiểm kê những gì đã thay đổi trong khi bạn vắng mặt

Ba điều đã thay đổi trong khoảng thời gian từ ngày 12 tháng 6 đến ngày 1 tháng 7. Một điều không thay đổi.

Bộ phân loại an toàn đã được huấn luyện lại. Fable 5 được triển khai lại đi kèm với một bộ phân loại an toàn đã được huấn luyện lại, nhắm mục tiêu vào một kỹ thuật "jailbreak" được báo cáo trong thời gian ngừng hoạt động. Anthropic cho biết nó chặn hơn 99% các nỗ lực sử dụng kỹ thuật đó. Các yêu cầu bị gắn cờ không thất bại: chúng tự động chuyển hướng đến Claude Opus 4.8, và phản hồi mang theo thông báo cho biết điều này. Hơn 95% các phiên không bao giờ gặp phải tình huống dự phòng. Đối với một quá trình di chuyển, điều cần rút ra là nhỏ nhưng quan trọng: các lời nhắc của bạn giờ đây chạy trên một lớp an toàn hơi khác so với hồi đầu tháng Sáu. Hãy kiểm tra lại thay vì giả định.

Kiểm tra trạng thái nền tảng đám mây của bạn. Amazon Bedrock đã khôi phục Fable 5 vào ngày 1 tháng 7, cùng ngày với API chính hãng, mặc dù các cấu hình suy luận khu vực có thể được triển khai không đồng đều. Google Vertex AI và Microsoft Foundry có thể vẫn đang trong quá trình cập nhật; hướng dẫn của Anthropic cho các nền tảng còn đang chờ xử lý là “càng nhanh càng tốt,” không có ngày cụ thể. Nếu khối lượng công việc của bạn chạy qua một nhà cung cấp đám mây, hãy xác nhận Fable 5 đã hoạt động trên nền tảng và khu vực của bạn trước khi bạn lên lịch bất cứ điều gì.

Các gói đăng ký có ngày cần lưu ý. Nếu đồng đội sử dụng Claude thông qua các gói đăng ký thay vì khóa API, một thay đổi về tín dụng gói sẽ có hiệu lực vào ngày 7 tháng 7. Nó không ảnh hưởng đến việc thanh toán API, nhưng hãy xác nhận cách nó ảnh hưởng đến bất kỳ việc sử dụng Claude Code hoặc Cowork nào trên các gói đó trước khi bạn cam kết nhóm vào một quy trình làm việc Fable 5 nặng hơn.

Bản thân mô hình không thay đổi. Cùng ID, claude-fable-5. Cùng cửa sổ ngữ cảnh mặc định 1M token, cùng đầu ra tối đa 128K, cùng mức giá 10 đô la cho mỗi triệu token đầu vào và 50 đô la cho mỗi triệu token đầu ra. Tổng quan về các mô hình phản ánh cùng một mục như hồi đầu tháng Sáu. Các tải trọng yêu cầu của bạn từ trước khi ngừng hoạt động vẫn hợp lệ. Cái cần xác minh lại là hành vi, chứ không phải cú pháp.

Xác minh lại quyền truy cập bằng một yêu cầu tối thiểu

Trước khi chạm vào cấu hình sản xuất, hãy gửi một yêu cầu duy nhất từ môi trường sẽ phục vụ lưu lượng truy cập: cùng đường dẫn mạng, cùng khóa, cùng phiên bản SDK. Bạn đang xác nhận hai điều. Thông tin xác thực của bạn có thể tiếp cận mô hình, và mô hình trả lời là mô hình bạn đã yêu cầu.

Kiểm tra nhanh từ terminal:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-fable-5",
    "max_tokens": 256,
    "messages": [{
      "role": "user",
      "content": "Summarize this changelog entry in one sentence: Added retry logic to the payments webhook."
    }]
  }'

Và cùng một yêu cầu thăm dò qua Python SDK, gần giống với những gì sản xuất chạy:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-fable-5",
    max_tokens=256,
    messages=[{
        "role": "user",
        "content": "Summarize this changelog entry in one sentence: "
                   "Added retry logic to the payments webhook.",
    }],
)

print(response.model)        # expect "claude-fable-5"
print(response.stop_reason)  # expect "end_turn"
print(response.usage)        # token counts, for your cost model

Trường quan trọng nhất là response.model. Nó đặt tên cho mô hình đã phục vụ yêu cầu. Nếu lớp an toàn mới đã chuyển hướng cuộc gọi của bạn, trường này sẽ đọc là claude-opus-4-8, đây chính xác là tín hiệu bạn sẽ theo dõi sau khi chuyển đổi. Kiểm tra nó ngay bây giờ, trên một yêu cầu đơn giản, sẽ tạo thói quen tốt.

Ở giai đoạn này, có hai chế độ lỗi đáng chú ý. Lỗi 404 trên mô hình khi bạn gọi qua Bedrock, Vertex AI hoặc Foundry thường có nghĩa là việc triển khai lại trên đám mây chưa đến khu vực của bạn; hãy xác minh với API gốc trước khi gửi yêu cầu hỗ trợ. Và lý do dừng refusal trên một yêu cầu kiểm tra rõ ràng là lành tính có nghĩa là hình dạng yêu cầu của bạn đáng được xem xét kỹ hơn *trước* khi bạn mở rộng quy mô, chứ không phải *sau*. Nếu bạn đang kết nối một dịch vụ mới thay vì khôi phục một dịch vụ cũ, hướng dẫn thiết lập đầy đủ có trong cách sử dụng API Claude Fable 5.

Xây dựng một đợt chạy thử hồi quy trước khi chuyển lại sản xuất

Đây là bước mà các nhóm thường bỏ qua, và đó là bước phân biệt giữa một đợt chuyển đổi suôn sẻ vào thứ Ba với một lần khôi phục vào tối thứ Sáu. Bạn đã phục vụ lưu lượng truy cập trên Opus 4.8 từ giữa tháng Sáu. Sự ngẫu nhiên của lịch sử đó đã mang lại cho bạn một thứ có giá trị: một tiêu chuẩn đo lường trực tiếp, đã được kiểm chứng. Hãy sử dụng nó.

Mục tiêu là một bộ các lời nhắc thực tế của bạn, chạy trên claude-fable-5, với kết quả bạn có thể so sánh với các số liệu của Opus 4.8. Dưới đây là quy trình làm việc trong Apidog:

1. Thu thập các lời nhắc quan trọng nhất. Không phải các kiểm thử tổng hợp. Nếu bạn vận hành một công cụ hỗ trợ kiểm thử API, hãy lấy 50 lời nhắc sản xuất hàng đầu của nó: tạo các trường hợp kiểm thử từ một đặc tả OpenAPI, giải thích một xác nhận bị lỗi, soạn một phản hồi giả lập cho một endpoint. Nếu bạn vận hành một endpoint tóm tắt tài liệu, hãy lấy mẫu các tài liệu thực tế trong phạm vi kích thước của bạn, từ một ghi chú phát hành hai đoạn văn đến tệp PDF dài 400 trang gây áp lực lên cửa sổ ngữ cảnh.

2. Tập hợp chúng thành một kịch bản kiểm thử. Trong Apidog, mỗi lời nhắc trở thành một bước yêu cầu đối với POST /v1/messages với model được đặt thành claude-fable-5. Các biến môi trường lưu trữ khóa API và URL cơ sở, do đó cùng một kịch bản có thể chạy với thông tin xác thực của môi trường thử nghiệm và sản xuất mà không cần chỉnh sửa.

3. Xác nhận những gì mà sản xuất phụ thuộc vào. Bốn xác nhận sau bao gồm hầu hết các chế độ lỗi:

4. Chạy và so sánh. Thực thi bộ kiểm thử đối với claude-fable-5, sau đó so sánh báo cáo với lần chạy Opus 4.8 của cùng bộ kiểm thử đó: tỷ lệ vượt qua, độ trễ p95, số lần từ chối, lỗi định dạng đầu ra. Các khác biệt ở đây thì rẻ. Những khác biệt tương tự được phát hiện trong sản xuất thì không.

5. Đặt cổng kiểm soát việc chuyển đổi trong CI/CD. CLI của Apidog chạy kịch bản giống hệt trong pipeline của bạn, do đó yêu cầu hợp nhất (pull request) thay đổi chuỗi mô hình chỉ được hợp nhất khi đợt chạy thử hồi quy thành công. Điều đó biến “chúng tôi nghĩ nó ổn” thành một tạo phẩm xây dựng.

Hãy giữ bộ kiểm thử chạy sau khi chuyển đổi nữa. Lên lịch chạy hàng ngày trong suốt quá trình triển khai theo giai đoạn, vì một lần chuyển hướng do bộ phân loại điều khiển mà không bao giờ xuất hiện trong một lần chạy 50 lời nhắc vẫn có thể xuất hiện ở khối lượng sản xuất. Bộ kiểm thử bạn xây dựng cho quá trình di chuyển cũng đóng vai trò là "chim hoàng yến" giám sát nó.

Theo dõi các lần chuyển hướng đến Opus 4.8

Đây là cách một tình huống dự phòng trông như thế nào từ góc độ người vận hành: yêu cầu thành công, hoàn thành mạch lạc, trạng thái HTTP là 200. Nhưng response.model đọc là claude-opus-4-8 và phản hồi mang theo thông báo rằng yêu cầu đã được chuyển hướng. Không có gì trong quá trình xử lý lỗi của bạn được kích hoạt, bởi vì không có lỗi nào xảy ra. Hồ sơ độ trễ, chi phí mỗi token và kiểu đầu ra của bạn đã thay đổi cho cuộc gọi đó, một cách âm thầm, trừ khi bạn đang ghi lại các trường chính xác.

Hai trường trên mỗi cuộc gọi là đủ: model phục vụ và khối usage. Phát chúng vào bất kỳ ngăn xếp quan sát nào bạn đang chạy, và đặt cảnh báo về tỷ lệ chuyển hướng. Vì hơn 95% các phiên không thấy dự phòng, một sự tăng đột biến kéo dài trên vài phần trăm có nghĩa là một điều cụ thể: một mẫu lời nhắc trong sản phẩm của bạn giống với mẫu mà bộ phân loại đã được huấn luyện lại nhắm tới. Đó là một yêu cầu kỹ thuật lời nhắc, không phải một sự cố, nhưng chỉ khi bạn bắt được nó trên bảng điều khiển thay vì trong email của khách hàng.

Đối với các yêu cầu mà bạn muốn tự động khôi phục, tham số fallbacks (hiện đang ở bản beta trên Claude API và Nền tảng Claude trên AWS) sẽ thử lại hoặc chuyển hướng các từ chối trong cùng một cuộc gọi, mà không cần thêm một vòng khứ hồi thứ hai từ mã của bạn. Nó thay đổi cách bạn nên cấu trúc logic thử lại, vì vậy đáng để đọc hướng dẫn chuyên sâu về tham số fallbacks của Fable 5 trước khi bạn xây dựng vòng lặp thử lại riêng của mình cho các từ chối.

Tính toán lại chi phí

Trong ba tuần, hóa đơn của bạn đã được tính theo tỷ lệ của Opus 4.8. Fable 5 có giá cao gấp đôi mỗi token: 10 đô la cho mỗi triệu token đầu vào và 50 đô la cho mỗi triệu token đầu ra, không thay đổi so với giá trong thông báo ra mắt ban đầu. Việc chuyển đổi trở lại là một sự gia tăng chi tiêu có chủ ý, và bộ phận tài chính sẽ nhận thấy điều đó ngay cả khi không ai khác để ý.

Trước khi chuyển đổi, hãy lấy dữ liệu sử dụng Opus 4.8 của bạn trong cửa sổ dự phòng và nhân nó với tỷ lệ của Fable 5. Sau đó áp dụng chiết khấu bộ nhớ đệm, bởi vì đó là nơi việc tính toán trở nên thú vị đối với các khối lượng công việc theo tác nhân. Bộ nhớ đệm lời nhắc trên Fable 5 được giảm giá 90%, khiến các lượt truy cập bộ nhớ đệm có giá 1.00 đô la cho mỗi triệu token. Một vòng lặp tác nhân gửi lại một lời nhắc hệ thống lớn, ổn định và các định nghĩa công cụ trong mỗi lần lặp có thể phục vụ hầu hết các token đầu vào từ bộ nhớ đệm. Một endpoint tóm tắt tài liệu với một tài liệu duy nhất cho mỗi yêu cầu thì không thể. Cùng một mô hình, cùng một bảng giá, nhưng chi phí hiệu quả trên mỗi yêu cầu khác nhau.

Một số nhóm sẽ hoàn thành phép tính này và kết luận rằng một phần lưu lượng truy cập của họ nên tiếp tục sử dụng Opus 4.8. Đó là một kết quả hợp lệ, không phải là một quá trình di chuyển thất bại. Khía cạnh khả năng của quyết định đó được đề cập trong Fable 5 so với Opus 4.8; phiên bản ngắn gọn là bạn trả phí cao hơn cho khả năng suy luận dài hạn, và các hoàn thành thông thường hiếm khi cần đến nó.

Danh sách kiểm tra chuyển đổi

Thực hiện từ trên xuống dưới. Bỏ qua bước nào đó là cách dẫn đến các lần triển khai vào thứ Sáu (đầy rủi ro).

Câu hỏi thường gặp

Fable 5 được triển khai lại có phải là mô hình đã ngừng hoạt động vào tháng Sáu không? Cùng ID mô hình, cùng thông số kỹ thuật, cùng giá: claude-fable-5, 1M ngữ cảnh, đầu ra tối đa 128K, 10 đô la/50 đô la cho mỗi triệu token. Sự khác biệt nằm ở bộ phân loại an toàn đã được huấn luyện lại đặt trước nó, bộ này sẽ chuyển hướng các yêu cầu bị gắn cờ đến Opus 4.8. Đó là lý do tại sao hướng dẫn này nhấn mạnh việc chạy thử hồi quy thay vì hoàn tác trực tiếp.

Điều gì xảy ra nếu một trong các yêu cầu của tôi bị gắn cờ? Nó không thất bại. Yêu cầu tự động chuyển hướng đến Claude Opus 4.8, hoàn thành ở đó, và phản hồi bao gồm một thông báo cùng với mô hình phục vụ trong trường model. Hơn 95% các phiên không bao giờ gặp phải điều này. Nếu khối lượng công việc của bạn thường xuyên gặp phải, hãy xem xét các lời nhắc gây ra nó và cân nhắc tham số fallbacks đang ở bản beta để xử lý có kiểm soát.

Tôi có nên xóa mã chuyển đổi dự phòng mà tôi đã viết trong thời gian ngừng hoạt động không? Không. Sự cố ngừng hoạt động đã chứng minh rằng các phụ thuộc vào một mô hình duy nhất rất mong manh, và lớp định tuyến bạn đã xây dựng là thành quả bền vững từ một tháng lẽ ra tồi tệ. Hãy giữ nó làm đường dẫn hoàn tác của bạn và chính thức hóa nó; thiết kế chuyển đổi dự phòng cho API AI đề cập đến cách biến một bản vá khẩn cấp thành kiến trúc.

Kết thúc quá trình chuyển đổi

Việc quay lại Fable 5 là một quá trình di chuyển, mặc dù ID mô hình không bao giờ thay đổi. Hãy xử lý nó như vậy: xác minh quyền truy cập bằng một yêu cầu duy nhất, chạy các lời nhắc thực tế của bạn như một bộ kiểm thử hồi quy đối với lớp an toàn đã được huấn luyện lại, so sánh kết quả với tiêu chuẩn Opus 4.8 mà bạn đã tích lũy từ tháng Sáu, và triển khai theo từng giai đoạn với response.model trên bảng điều khiển. Các nhóm làm điều này sẽ quay lại Fable 5 vào cuối tuần với các con số để chứng minh nó an toàn. Nếu bạn muốn có lần chạy thử hồi quy và cổng CI/CD trong một công cụ duy nhất, hãy Tải Apidog và xây dựng kịch bản trước khi bạn chạm vào cấu hình.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API