Cách xây dựng AI Agent chạy dài hạn với Claude

Tóm tắt

Claude Managed Agents là môi trường chạy (runtime) được Anthropic quản lý mới dành cho các agent sản xuất. Nó cung cấp khả năng thực thi trong môi trường sandbox, các phiên chạy dài, quyền được giới hạn phạm vi, khả năng theo dõi (tracing) và phối hợp đa-agent tùy chọn mà không buộc nhóm của bạn phải xây dựng cơ sở hạ tầng đó từ đầu. Nếu agent của bạn cần gọi các công cụ nội bộ, API của bên thứ ba hoặc các quy trình làm việc dài, Apidog giúp bạn xác thực các hợp đồng công cụ đó trước khi bạn cho phép agent chạm vào các hệ thống thực tế.

Giới thiệu

Claude Managed Agents nhắm vào một trong những lý do lớn nhất khiến các dự án agent bị đình trệ: môi trường chạy khó triển khai hơn lời nhắc (prompt). Anthropic hiện cung cấp một cách được quản lý để chạy các agent có tuổi thọ cao với tính năng sandbox, quyền hạn, theo dõi và duy trì phiên được tích hợp sẵn, giúp các nhóm dành ít thời gian hơn cho việc xây dựng cơ sở hạ tầng và nhiều thời gian hơn cho việc triển khai các quy trình làm việc hữu ích.

💡

Điều đó thay đổi cuộc trò chuyện đối với các nhóm API. Phần khó khăn không còn là liệu Claude có thể suy luận qua một nhiệm vụ hay không. Phần khó khăn là liệu agent có thể gọi đúng công cụ một cách an toàn, phục hồi sau các phản hồi xấu và tiếp tục hoạt động khi một tác vụ chạy lâu hơn một yêu cầu trò chuyện thông thường hay không.

button

Nếu bạn có kế hoạch cho phép agent truy cập các API nội bộ hoặc các điểm cuối công cụ, bạn nên kiểm tra bề mặt đó trước khi triển khai. Apidog cung cấp cho bạn một cách trực tiếp để mô phỏng các điểm cuối công cụ, xác thực lược đồ JSON, chuỗi các kịch bản kiểm thử nhiều bước và chạy kiểm tra hồi quy trong CI với Apidog CLI. Đó là một điểm khởi đầu an toàn hơn so với việc cấp quyền truy cập trực tiếp cho một agent được quản lý mới và phát hiện lỗi hợp đồng trong môi trường sản xuất.

Tại sao các agent sản xuất vẫn khó triển khai

Một agent demo cuối tuần thì dễ. Một agent sản xuất thì không.

Khi bạn vượt qua một yêu cầu và phản hồi duy nhất, những phần khó khăn sẽ xuất hiện nhanh chóng:

Bạn cần thực thi mã an toàn cho các hành động tạo tệp, chuyển đổi dữ liệu hoặc gọi các tập lệnh tùy chỉnh.
Bạn cần trạng thái tồn tại sau khi mạng bị ngắt kết nối và trình duyệt được làm mới.
Bạn cần ranh giới quyền hạn rõ ràng để một agent có thể đọc một hệ thống mà không âm thầm chỉnh sửa một hệ thống khác.
Bạn cần dấu vết (traces) để gỡ lỗi vì "mô hình đã làm điều gì đó lạ" là không đủ trong quá trình xem xét sự cố.
Bạn cần một cách để thử lại các bước thất bại mà không cần phát lại toàn bộ quy trình làm việc từ đầu.
Bạn cần các hợp đồng có thể dự đoán được cho các API và công cụ mà agent sẽ gọi.

Đây là lý do tại sao nhiều nhóm bị mắc kẹt giữa bản thử nghiệm và triển khai. Phần mô hình tiếp tục được cải thiện. Phần vận hành vẫn chiếm hết thời gian biểu.

Mô hình đó quen thuộc trong các sản phẩm agent. Các nhóm xây dựng trợ lý lập trình, agent nghiên cứu, công cụ chuẩn bị cuộc họp và tự động hóa quy trình làm việc đều gặp phải nút thắt cổ chai tương tự: môi trường chạy trở thành một sản phẩm riêng. Anthropic đang cố gắng thu gọn lớp đó thành một dịch vụ được quản lý.

Claude Managed Agents bao gồm những gì

Theo bài đăng ra mắt của Anthropic, Claude Managed Agents kết hợp một dàn xếp được điều chỉnh bởi Claude với cơ sở hạ tầng sản xuất được lưu trữ. Trên thực tế, lần ra mắt này giới thiệu năm khả năng quan trọng đối với các nhóm API.

1. Môi trường chạy agent được lưu trữ

Bạn xác định công việc, quyền truy cập công cụ và các rào cản bảo vệ. Anthropic chạy vòng lặp trên cơ sở hạ tầng của riêng mình. Điều đó loại bỏ một lượng lớn công việc backend tùy chỉnh cho các nhóm mà nếu không sẽ phải xây dựng hàng đợi, worker sandbox, lớp phiên và bộ điều khiển thực thi.

Đây là giá trị lớn nhất trong lần ra mắt này. Hầu hết các nhóm đã có thể gọi một mô hình. Điều mà họ không có là một môi trường chạy sạch sẽ cho công việc thực tế.

2. Các phiên chạy dài

Anthropic cho biết các phiên có thể chạy trong nhiều giờ và duy trì đầu ra cũng như tiến độ ngay cả khi máy khách bị ngắt kết nối. Điều đó quan trọng đối với các tác vụ nghiên cứu, tạo tệp lớn, lập kế hoạch nhiều bước hoặc công việc vận hành nền mà không phù hợp với một yêu cầu tương tác ngắn.

Nếu agent của bạn viết báo cáo, kiểm tra cơ sở mã, xử lý tài liệu hoặc tập hợp các sản phẩm từ một số hệ thống, các phiên chạy dài sẽ loại bỏ một hạn chế lớn. Bạn ngừng thiết kế xung quanh các cửa sổ trò chuyện ngắn và bắt đầu thiết kế xung quanh công việc đã hoàn thành.3. Thực thi trong môi trường sandbox và quản trị

Lần ra mắt này nhấn mạnh thực thi trong sandbox an toàn, xác thực, nhận dạng và quyền hạn được giới hạn phạm vi. Đó không phải là một chi tiết phụ. Đó là sự khác biệt giữa một bản demo thú vị và một hệ thống sẵn sàng cho doanh nghiệp.

Một agent có thể mở một yêu cầu kéo (pull request), tạo một bảng tính hoặc tương tác với dữ liệu tài chính không bao giờ nên có quyền truy cập rộng rãi theo mặc định. Quản trị được lưu trữ cho phép bạn hạn chế những gì môi trường chạy có thể làm và cung cấp cho các nhóm bảo mật một bề mặt xem xét rõ ràng hơn.

4. Theo dõi và khắc phục sự cố tích hợp

Anthropic cho biết các lệnh gọi công cụ, quyết định, phân tích và chế độ lỗi có thể nhìn thấy trong Claude Console. Theo dõi tốt sẽ rút ngắn khoảng cách giữa "có gì đó không ổn" và "đây là yêu cầu chính xác, đầu ra công cụ và nhánh gây ra nó."

Điều đó đặc biệt hữu ích khi bạn đang gỡ lỗi các công cụ thay vì các lời nhắc. Trong nhiều hệ thống agent, mắt xích yếu nhất là hợp đồng API xung quanh công cụ, chứ không phải bản thân mô hình.

5. Phối hợp đa-agent, trong bản xem trước nghiên cứu

Anthropic cũng công bố tính năng phối hợp đa-agent, nơi các agent có thể chỉ đạo các agent khác để song song hóa công việc. Tính năng này vẫn đang trong bản xem trước nghiên cứu, vì vậy nó không phải là phần mà tôi sẽ tập trung bài viết vào. Tuy nhiên, nó báo hiệu hướng đi của nền tảng: từ các worker đơn lẻ đến các nhóm agent được điều phối.

Điều này thay đổi kiến trúc của một sản phẩm agent như thế nào

Trước Managed Agents, một nhóm điển hình có hai lựa chọn.

Lựa chọn A: Tự xây dựng môi trường chạy

Điều này mang lại cho bạn quyền kiểm soát tối đa. Nó cũng có nghĩa là bạn sở hữu:

cô lập container hoặc VM
vòng đời thực thi công cụ
duy trì phiên
kiểm tra điểm dừng
bí mật và thông tin xác thực
phân quyền
nhật ký và dấu vết
thử lại và phục hồi
bảo trì hoạt động sau khi ra mắt

Con đường này vẫn có ý nghĩa khi bạn cần cơ sở hạ tầng khác thường, các yêu cầu lưu trữ nội bộ nghiêm ngặt hoặc logic điều phối tùy chỉnh sâu sắc.

Lựa chọn B: Sử dụng môi trường chạy được quản lý

Điều này đánh đổi một chút quyền kiểm soát để lấy tốc độ. Môi trường chạy đã có sẵn và nhóm của bạn có thể dành thời gian cho thiết kế tác vụ, UX và chất lượng công cụ thay vì xây dựng cơ sở hạ tầng.

Đó là lý do tại sao Anthropic coi Managed Agents là một cách để đưa sản phẩm vào sản xuất nhanh hơn 10 lần. Bài đăng ra mắt cũng cho biết thử nghiệm nội bộ về tạo tệp có cấu trúc cho thấy mức tăng thành công tác vụ lên tới 10 điểm so với vòng lặp nhắc lệnh tiêu chuẩn, với mức tăng lớn nhất ở các vấn đề khó hơn.

Sự thay đổi quan trọng là đây: cơ sở hạ tầng agent được lưu trữ đang trở thành một danh mục sản phẩm, chứ không phải là một dự án phụ trong ngăn xếp của bạn.

Claude Managed Agents so với cơ sở hạ tầng agent tự xây dựng

Lĩnh vực quyết định	Claude Managed Agents	Môi trường chạy tự xây dựng
Thời gian ra mắt sản phẩm đầu tiên	Nhanh, vì môi trường chạy đã được lưu trữ	Chậm hơn, vì bạn phải xây dựng môi trường chạy trước
Sandboxing và quản trị	Tích hợp sẵn	Bạn sở hữu toàn bộ thiết kế
Các phiên chạy dài	Tích hợp sẵn	Bạn xây dựng và duy trì trạng thái phiên
Tracing	Có sẵn trong Claude Console	Bạn tự xây dựng lớp quan sát của riêng mình
Tính linh hoạt	Tốt cho mô hình được hỗ trợ và mẫu môi trường chạy	Linh hoạt cao nhất
Tải hoạt động liên tục	Thấp hơn	Cao hơn
Phù hợp nhất	Các nhóm muốn triển khai sản phẩm agent nhanh chóng	Các nhóm có cơ sở hạ tầng khác thường hoặc nhu cầu môi trường chạy tùy chỉnh nghiêm ngặt

Đây là quy tắc thực tế.

Chọn Managed Agents nếu nhóm của bạn muốn triển khai một sản phẩm agent trong quý này và yếu tố khác biệt cốt lõi của bạn là quy trình làm việc, giao diện người dùng hoặc các công cụ độc quyền đằng sau nó.

Chọn tự xây dựng nếu bản thân môi trường chạy là một phần lợi thế cạnh tranh của bạn, bạn cần toàn quyền kiểm soát việc lưu trữ và điều phối, hoặc mô hình bảo mật của bạn yêu cầu xử lý tùy chỉnh sâu hơn so với những gì dịch vụ được quản lý có thể cung cấp.

Giá cả và những đánh đổi bạn nên hiểu

Managed Agents sử dụng giá token tiêu chuẩn của Claude Platform cộng thêm 0,08 đô la mỗi giờ phiên hoạt động. Điều đó có ý nghĩa đối với các agent thực hiện công việc thực tế theo thời gian, nhưng nó thay đổi cách bạn nên nghĩ về chi phí.

Với quy trình làm việc API trò chuyện thông thường, chi phí chủ yếu đến từ token. Với môi trường chạy được quản lý, chi phí đến từ token cộng với thời gian chạy hoạt động đã trôi qua. Điều đó có nghĩa là bạn nên thiết kế agent để hoàn thành công việc một cách gọn gàng, nhanh chóng thất bại khi đầu vào xấu và tránh các vòng lặp vô nghĩa.

Ba câu hỏi quan trọng trước khi bạn áp dụng nó:

Một phiên sẽ chạy bao nhiêu phút so với bao nhiêu giờ?
Một lần chạy hoàn thành tạo ra bao nhiêu giá trị cho người dùng?
Những tác vụ nào nên duy trì đồng bộ, và những tác vụ nào nên chuyển sang thực thi nền?

Nếu câu trả lời là "agent của chúng tôi chủ yếu thực hiện các lệnh gọi ngắn có tính xác định," thì một tích hợp API thông thường vẫn có thể đủ.

Nếu câu trả lời là "agent của chúng tôi nghiên cứu, viết, vá lỗi, phối hợp các công cụ và trả lại sản phẩm sau," thì môi trường chạy được quản lý bắt đầu trông hấp dẫn hơn nhiều.

Cách kiểm tra API công cụ agent bằng Apidog trước khi ra mắt

Đây là phần bài viết cần cụ thể.

Điểm yếu trong nhiều lần ra mắt agent không phải là mô hình. Đó là lớp công cụ. Nếu agent của bạn có thể gọi search_customers, create_invoice, open_pr hoặc send_slack_message, thì mỗi công cụ đó là một hợp đồng API. Bạn cần biết điều gì xảy ra khi tải trọng bị định dạng sai, lược đồ bị trôi dạt, một trường bắt buộc biến mất hoặc mã thông báo xác thực có phạm vi không chính xác.

Apidog phù hợp với quy trình làm việc này vì bạn có thể lập mô hình các hợp đồng công cụ trước khi agent đi vào sản xuất.

Sử dụng Smart Mock để thiết lập các điểm cuối công cụ sớm

Smart Mock tạo các phản hồi thực tế trực tiếp từ đặc tả API của bạn và tuân thủ các ràng buộc JSON Schema. Điều đó mang lại cho nhóm của bạn một cách nhanh chóng để thiết lập các điểm cuối công cụ giả trong khi backend thực tế vẫn đang thay đổi.

Đối với công việc của agent, điều đó quan trọng vì bạn có thể kiểm tra kế hoạch và lựa chọn công cụ trước khi mọi dịch vụ hạ nguồn sẵn sàng. Nếu agent được quản lý của bạn mong đợi một ticket_priority, account_id hoặc enum status, Smart Mock có thể trả về dữ liệu khớp với lược đồ thay vì các phần giữ chỗ được viết tay có thể che giấu lỗi.

Xem thêm Kiểm thử API không cần Postman vào năm 2026 nếu bạn đang chuẩn hóa quy trình làm việc này trong toàn nhóm.

Xây dựng các kịch bản kiểm thử nhiều bước cho quy trình làm việc của agent

Các kịch bản kiểm thử Apidog rất hữu ích khi một lệnh gọi công cụ cung cấp cho lệnh gọi tiếp theo. Tài liệu mô tả hỗ trợ thực thi tuần tự, truyền dữ liệu giữa các yêu cầu, kiểm soát luồng, dữ liệu kiểm thử được xác định trước và tích hợp CI/CD.

Điều đó ánh xạ gọn gàng vào các hệ thống agent.

Một luồng xác thực thực tế có thể trông như sau:

Mock hoặc gọi POST /tasks
Trích xuất task_id được trả về
Gọi GET /tasks/{task_id}
Khẳng định các chuyển đổi trạng thái
Kích hoạt một nhánh lỗi với thông tin xác thực không hợp lệ
Xác minh tải trọng lỗi hướng tới agent vẫn nằm trong hợp đồng

Loại kịch bản này giúp phát hiện lỗi công cụ trước khi môi trường chạy agent phải phục hồi chúng trong môi trường sản xuất.

Xác thực sự trôi dạt của hợp đồng trước khi nó làm hỏng agent

Các agent nhạy cảm với sự trôi dạt của lược đồ. Một trường được đổi tên, một enum lỏng lẻo hơn hoặc một thuộc tính lồng ghép bị thiếu có thể làm hỏng chuỗi công cụ theo những cách trông giống như lỗi suy luận.

Sử dụng Apidog để khóa các dạng yêu cầu và phản hồi bằng OpenAPI và JSON Schema, sau đó chạy các kiểm tra dựa trên kịch bản khi backend thay đổi. Nếu nhóm của bạn sử dụng các định nghĩa công cụ được tạo, điều này thậm chí còn quan trọng hơn vì agent sẽ tin tưởng vào đặc tả bạn cung cấp.

Thêm kiểm tra CLI vào CI để bao quát hồi quy

Apidog CLI có thể chạy các bộ kiểm thử từ dòng lệnh và xuất báo cáo, bao gồm các báo cáo HTML trong thư mục apidog-reports/ được tạo. Điều đó làm cho nó rất phù hợp cho các kiểm tra trước khi hợp nhất (pre-merge) hoặc trước khi triển khai (pre-deploy) trên các công cụ agent.

Một chính sách đơn giản là đủ:

mỗi điểm cuối công cụ cần một kiểm tra lược đồ
mỗi hành động ghi cần ít nhất một kiểm tra lỗi xác thực
mỗi quy trình làm việc chạy dài cần một trường hợp hết thời gian chờ và thử lại
mỗi công cụ rủi ro cao cần một kiểm tra tiêu cực cho trạng thái xấu

Khi bạn làm như vậy, agent được quản lý của bạn sẽ đi vào sản xuất với một bề mặt công cụ sạch hơn.

Một mẫu kiến trúc đơn giản để bắt đầu

Bạn không cần một nền tảng agent khổng lồ ngay từ ngày đầu tiên. Một mẫu đơn giản là đủ.

Yêu cầu người dùng
  -> Phiên Claude Managed Agent
  -> lựa chọn công cụ
  -> API nội bộ và dịch vụ của bên thứ ba
  -> kết quả tạo tác hoặc hành động
  -> xem xét dấu vết trong Claude Console

Trước khi ra mắt:
  Đặc tả Apidog -> Smart Mock -> Kịch bản kiểm thử -> Kiểm tra hồi quy CLI trong CI

Sự phân chia này là lành mạnh.

Để Claude Managed Agents xử lý các vấn đề về môi trường chạy như quản lý phiên, thực thi được lưu trữ và điều phối. Để Apidog xử lý thiết kế hợp đồng API, mô phỏng, kiểm thử và kiểm tra hồi quy xung quanh các công cụ mà agent của bạn phụ thuộc vào.

Điều đó giữ cho lớp mô hình và lớp chất lượng API tách biệt, đây chính xác là điều mà hầu hết các nhóm cần.

Khi nào sự ra mắt này quan trọng nhất

Claude Managed Agents thú vị nhất đối với năm nhóm sau:

các nhóm xây dựng agent lập trình hoặc gỡ lỗi
các nhóm chạy quy trình làm việc tài liệu hoặc nghiên cứu mất hơn vài phút
các nhóm sản phẩm muốn thực thi tác vụ nền bên trong một ứng dụng
các nhóm doanh nghiệp cần quản trị, theo dõi và quyền hạn được giới hạn phạm vi
các nhóm API đã có các công cụ nội bộ và muốn có một con đường nhanh hơn đến các sản phẩm agent

Nếu nhóm của bạn vẫn đang chứng minh trường hợp sử dụng, hãy bắt đầu với một quy trình làm việc hẹp và một bề mặt công cụ nhỏ.

Nếu trường hợp sử dụng đã hoạt động và cơ sở hạ tầng là nút thắt cổ chai, sự ra mắt này đáng được quan tâm nghiêm túc.

Kết luận

Claude Managed Agents không chỉ là một tính năng mô hình khác. Đó là nỗ lực của Anthropic nhằm thương mại hóa phần rắc rối của việc triển khai agent: thực thi được lưu trữ, duy trì, quản trị và theo dõi.

Đó là lý do tại sao lần ra mắt này quan trọng. Nó chuyển câu hỏi xây dựng từ "làm thế nào để chúng ta tạo ra một môi trường chạy agent" sang "những quy trình làm việc nào xứng đáng có một agent, và các công cụ đằng sau nó an toàn đến mức nào?"

Câu hỏi thứ hai là nơi Apidog phù hợp. Trước khi bạn cho phép một agent được lưu trữ chạy dài truy cập API nội bộ, hãy lập mô hình hợp đồng, mô phỏng các phản hồi, kiểm tra các đường dẫn lỗi và thêm độ bao phủ hồi quy trong CI. Công việc đó mang lại cho agent một bề mặt sạch hơn để hoạt động và giúp nhóm của bạn ít gặp bất ngờ hơn sau khi ra mắt.

button

Câu hỏi thường gặp

Claude Managed Agents là gì?

Claude Managed Agents là môi trường chạy được Anthropic quản lý dành cho các agent dựa trên đám mây trên Claude Platform. Nó bao gồm thực thi trong môi trường sandbox, các phiên chạy dài, theo dõi, quyền được giới hạn phạm vi và điều phối được lưu trữ.

Claude Managed Agents có sẵn ngay bây giờ không?

Có. Anthropic đã công bố nó dưới dạng bản beta công khai vào ngày 8 tháng 4 năm 2026. Một số tính năng, chẳng hạn như phối hợp đa-agent và vòng lặp tự đánh giá, vẫn đang trong bản xem trước nghiên cứu.

Claude Managed Agents có giá như thế nào?

Anthropic cho biết giá token tiêu chuẩn của Claude Platform được áp dụng, cộng thêm 0,08 đô la mỗi giờ phiên hoạt động.

Khi nào bạn nên sử dụng Managed Agents thay vì tự xây dựng môi trường chạy của riêng mình?

Sử dụng Managed Agents khi tốc độ đưa vào sản xuất quan trọng hơn việc tùy chỉnh môi trường chạy sâu. Nếu nhóm của bạn cần lưu trữ khác thường, kiểm soát nội bộ nghiêm ngặt hoặc điều phối tùy chỉnh mà một nền tảng được quản lý không thể hỗ trợ, thì tự xây dựng vẫn có thể phù hợp hơn.

Tại sao các nhóm API nên kiểm tra công cụ agent riêng biệt?

Bởi vì nhiều lỗi agent đến từ các hợp đồng công cụ bị hỏng, các vấn đề xác thực hoặc sự trôi dạt lược đồ thay vì lý luận kém. Kiểm tra công cụ riêng biệt giúp bạn phát hiện những lỗi đó trước khi chúng đến môi trường chạy.

Apidog có thể giúp ích như thế nào trong việc kiểm tra công cụ agent?

Apidog giúp bạn xác định hợp đồng công cụ, tạo phản hồi mô phỏng từ lược đồ bằng Smart Mock, chuỗi các xác thực nhiều bước bằng Kịch bản kiểm thử và chạy kiểm tra hồi quy trong CI bằng Apidog CLI.