Cách xây dựng AI Agent chạy dài hạn với Claude

Ashley Innocent

Ashley Innocent

9 tháng 4 2026

Cách xây dựng AI Agent chạy dài hạn với Claude

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Tóm tắt

Claude Managed Agents là môi trường chạy (runtime) được Anthropic quản lý mới dành cho các agent sản xuất. Nó cung cấp khả năng thực thi trong môi trường sandbox, các phiên chạy dài, quyền được giới hạn phạm vi, khả năng theo dõi (tracing) và phối hợp đa-agent tùy chọn mà không buộc nhóm của bạn phải xây dựng cơ sở hạ tầng đó từ đầu. Nếu agent của bạn cần gọi các công cụ nội bộ, API của bên thứ ba hoặc các quy trình làm việc dài, Apidog giúp bạn xác thực các hợp đồng công cụ đó trước khi bạn cho phép agent chạm vào các hệ thống thực tế.

Giới thiệu

Claude Managed Agents nhắm vào một trong những lý do lớn nhất khiến các dự án agent bị đình trệ: môi trường chạy khó triển khai hơn lời nhắc (prompt). Anthropic hiện cung cấp một cách được quản lý để chạy các agent có tuổi thọ cao với tính năng sandbox, quyền hạn, theo dõi và duy trì phiên được tích hợp sẵn, giúp các nhóm dành ít thời gian hơn cho việc xây dựng cơ sở hạ tầng và nhiều thời gian hơn cho việc triển khai các quy trình làm việc hữu ích.

💡
Điều đó thay đổi cuộc trò chuyện đối với các nhóm API. Phần khó khăn không còn là liệu Claude có thể suy luận qua một nhiệm vụ hay không. Phần khó khăn là liệu agent có thể gọi đúng công cụ một cách an toàn, phục hồi sau các phản hồi xấu và tiếp tục hoạt động khi một tác vụ chạy lâu hơn một yêu cầu trò chuyện thông thường hay không.
button

Nếu bạn có kế hoạch cho phép agent truy cập các API nội bộ hoặc các điểm cuối công cụ, bạn nên kiểm tra bề mặt đó trước khi triển khai. Apidog cung cấp cho bạn một cách trực tiếp để mô phỏng các điểm cuối công cụ, xác thực lược đồ JSON, chuỗi các kịch bản kiểm thử nhiều bước và chạy kiểm tra hồi quy trong CI với Apidog CLI. Đó là một điểm khởi đầu an toàn hơn so với việc cấp quyền truy cập trực tiếp cho một agent được quản lý mới và phát hiện lỗi hợp đồng trong môi trường sản xuất.

Tại sao các agent sản xuất vẫn khó triển khai

Một agent demo cuối tuần thì dễ. Một agent sản xuất thì không.

Khi bạn vượt qua một yêu cầu và phản hồi duy nhất, những phần khó khăn sẽ xuất hiện nhanh chóng:

Đây là lý do tại sao nhiều nhóm bị mắc kẹt giữa bản thử nghiệm và triển khai. Phần mô hình tiếp tục được cải thiện. Phần vận hành vẫn chiếm hết thời gian biểu.

Mô hình đó quen thuộc trong các sản phẩm agent. Các nhóm xây dựng trợ lý lập trình, agent nghiên cứu, công cụ chuẩn bị cuộc họp và tự động hóa quy trình làm việc đều gặp phải nút thắt cổ chai tương tự: môi trường chạy trở thành một sản phẩm riêng. Anthropic đang cố gắng thu gọn lớp đó thành một dịch vụ được quản lý.

Claude Managed Agents bao gồm những gì

Theo bài đăng ra mắt của Anthropic, Claude Managed Agents kết hợp một dàn xếp được điều chỉnh bởi Claude với cơ sở hạ tầng sản xuất được lưu trữ. Trên thực tế, lần ra mắt này giới thiệu năm khả năng quan trọng đối với các nhóm API.

1. Môi trường chạy agent được lưu trữ

Bạn xác định công việc, quyền truy cập công cụ và các rào cản bảo vệ. Anthropic chạy vòng lặp trên cơ sở hạ tầng của riêng mình. Điều đó loại bỏ một lượng lớn công việc backend tùy chỉnh cho các nhóm mà nếu không sẽ phải xây dựng hàng đợi, worker sandbox, lớp phiên và bộ điều khiển thực thi.

Đây là giá trị lớn nhất trong lần ra mắt này. Hầu hết các nhóm đã có thể gọi một mô hình. Điều mà họ không có là một môi trường chạy sạch sẽ cho công việc thực tế.

2. Các phiên chạy dài

Anthropic cho biết các phiên có thể chạy trong nhiều giờ và duy trì đầu ra cũng như tiến độ ngay cả khi máy khách bị ngắt kết nối. Điều đó quan trọng đối với các tác vụ nghiên cứu, tạo tệp lớn, lập kế hoạch nhiều bước hoặc công việc vận hành nền mà không phù hợp với một yêu cầu tương tác ngắn.

Nếu agent của bạn viết báo cáo, kiểm tra cơ sở mã, xử lý tài liệu hoặc tập hợp các sản phẩm từ một số hệ thống, các phiên chạy dài sẽ loại bỏ một hạn chế lớn. Bạn ngừng thiết kế xung quanh các cửa sổ trò chuyện ngắn và bắt đầu thiết kế xung quanh công việc đã hoàn thành.3. Thực thi trong môi trường sandbox và quản trị

Lần ra mắt này nhấn mạnh thực thi trong sandbox an toàn, xác thực, nhận dạng và quyền hạn được giới hạn phạm vi. Đó không phải là một chi tiết phụ. Đó là sự khác biệt giữa một bản demo thú vị và một hệ thống sẵn sàng cho doanh nghiệp.

Một agent có thể mở một yêu cầu kéo (pull request), tạo một bảng tính hoặc tương tác với dữ liệu tài chính không bao giờ nên có quyền truy cập rộng rãi theo mặc định. Quản trị được lưu trữ cho phép bạn hạn chế những gì môi trường chạy có thể làm và cung cấp cho các nhóm bảo mật một bề mặt xem xét rõ ràng hơn.

4. Theo dõi và khắc phục sự cố tích hợp

Anthropic cho biết các lệnh gọi công cụ, quyết định, phân tích và chế độ lỗi có thể nhìn thấy trong Claude Console. Theo dõi tốt sẽ rút ngắn khoảng cách giữa "có gì đó không ổn" và "đây là yêu cầu chính xác, đầu ra công cụ và nhánh gây ra nó."

Điều đó đặc biệt hữu ích khi bạn đang gỡ lỗi các công cụ thay vì các lời nhắc. Trong nhiều hệ thống agent, mắt xích yếu nhất là hợp đồng API xung quanh công cụ, chứ không phải bản thân mô hình.

5. Phối hợp đa-agent, trong bản xem trước nghiên cứu

Anthropic cũng công bố tính năng phối hợp đa-agent, nơi các agent có thể chỉ đạo các agent khác để song song hóa công việc. Tính năng này vẫn đang trong bản xem trước nghiên cứu, vì vậy nó không phải là phần mà tôi sẽ tập trung bài viết vào. Tuy nhiên, nó báo hiệu hướng đi của nền tảng: từ các worker đơn lẻ đến các nhóm agent được điều phối.

Điều này thay đổi kiến trúc của một sản phẩm agent như thế nào

Trước Managed Agents, một nhóm điển hình có hai lựa chọn.

Lựa chọn A: Tự xây dựng môi trường chạy

Điều này mang lại cho bạn quyền kiểm soát tối đa. Nó cũng có nghĩa là bạn sở hữu:

Con đường này vẫn có ý nghĩa khi bạn cần cơ sở hạ tầng khác thường, các yêu cầu lưu trữ nội bộ nghiêm ngặt hoặc logic điều phối tùy chỉnh sâu sắc.

Lựa chọn B: Sử dụng môi trường chạy được quản lý

Điều này đánh đổi một chút quyền kiểm soát để lấy tốc độ. Môi trường chạy đã có sẵn và nhóm của bạn có thể dành thời gian cho thiết kế tác vụ, UX và chất lượng công cụ thay vì xây dựng cơ sở hạ tầng.

Đó là lý do tại sao Anthropic coi Managed Agents là một cách để đưa sản phẩm vào sản xuất nhanh hơn 10 lần. Bài đăng ra mắt cũng cho biết thử nghiệm nội bộ về tạo tệp có cấu trúc cho thấy mức tăng thành công tác vụ lên tới 10 điểm so với vòng lặp nhắc lệnh tiêu chuẩn, với mức tăng lớn nhất ở các vấn đề khó hơn.

Sự thay đổi quan trọng là đây: cơ sở hạ tầng agent được lưu trữ đang trở thành một danh mục sản phẩm, chứ không phải là một dự án phụ trong ngăn xếp của bạn.

Claude Managed Agents so với cơ sở hạ tầng agent tự xây dựng

Lĩnh vực quyết định Claude Managed Agents Môi trường chạy tự xây dựng
Thời gian ra mắt sản phẩm đầu tiên Nhanh, vì môi trường chạy đã được lưu trữ Chậm hơn, vì bạn phải xây dựng môi trường chạy trước
Sandboxing và quản trị Tích hợp sẵn Bạn sở hữu toàn bộ thiết kế
Các phiên chạy dài Tích hợp sẵn Bạn xây dựng và duy trì trạng thái phiên
Tracing Có sẵn trong Claude Console Bạn tự xây dựng lớp quan sát của riêng mình
Tính linh hoạt Tốt cho mô hình được hỗ trợ và mẫu môi trường chạy Linh hoạt cao nhất
Tải hoạt động liên tục Thấp hơn Cao hơn
Phù hợp nhất Các nhóm muốn triển khai sản phẩm agent nhanh chóng Các nhóm có cơ sở hạ tầng khác thường hoặc nhu cầu môi trường chạy tùy chỉnh nghiêm ngặt

Đây là quy tắc thực tế.

Chọn Managed Agents nếu nhóm của bạn muốn triển khai một sản phẩm agent trong quý này và yếu tố khác biệt cốt lõi của bạn là quy trình làm việc, giao diện người dùng hoặc các công cụ độc quyền đằng sau nó.

Chọn tự xây dựng nếu bản thân môi trường chạy là một phần lợi thế cạnh tranh của bạn, bạn cần toàn quyền kiểm soát việc lưu trữ và điều phối, hoặc mô hình bảo mật của bạn yêu cầu xử lý tùy chỉnh sâu hơn so với những gì dịch vụ được quản lý có thể cung cấp.

Giá cả và những đánh đổi bạn nên hiểu

Managed Agents sử dụng giá token tiêu chuẩn của Claude Platform cộng thêm 0,08 đô la mỗi giờ phiên hoạt động. Điều đó có ý nghĩa đối với các agent thực hiện công việc thực tế theo thời gian, nhưng nó thay đổi cách bạn nên nghĩ về chi phí.

Với quy trình làm việc API trò chuyện thông thường, chi phí chủ yếu đến từ token. Với môi trường chạy được quản lý, chi phí đến từ token cộng với thời gian chạy hoạt động đã trôi qua. Điều đó có nghĩa là bạn nên thiết kế agent để hoàn thành công việc một cách gọn gàng, nhanh chóng thất bại khi đầu vào xấu và tránh các vòng lặp vô nghĩa.

Ba câu hỏi quan trọng trước khi bạn áp dụng nó:

  1. Một phiên sẽ chạy bao nhiêu phút so với bao nhiêu giờ?
  2. Một lần chạy hoàn thành tạo ra bao nhiêu giá trị cho người dùng?
  3. Những tác vụ nào nên duy trì đồng bộ, và những tác vụ nào nên chuyển sang thực thi nền?

Nếu câu trả lời là "agent của chúng tôi chủ yếu thực hiện các lệnh gọi ngắn có tính xác định," thì một tích hợp API thông thường vẫn có thể đủ.

Nếu câu trả lời là "agent của chúng tôi nghiên cứu, viết, vá lỗi, phối hợp các công cụ và trả lại sản phẩm sau," thì môi trường chạy được quản lý bắt đầu trông hấp dẫn hơn nhiều.

Cách kiểm tra API công cụ agent bằng Apidog trước khi ra mắt

Đây là phần bài viết cần cụ thể.

Điểm yếu trong nhiều lần ra mắt agent không phải là mô hình. Đó là lớp công cụ. Nếu agent của bạn có thể gọi search_customers, create_invoice, open_pr hoặc send_slack_message, thì mỗi công cụ đó là một hợp đồng API. Bạn cần biết điều gì xảy ra khi tải trọng bị định dạng sai, lược đồ bị trôi dạt, một trường bắt buộc biến mất hoặc mã thông báo xác thực có phạm vi không chính xác.

Apidog phù hợp với quy trình làm việc này vì bạn có thể lập mô hình các hợp đồng công cụ trước khi agent đi vào sản xuất.

Sử dụng Smart Mock để thiết lập các điểm cuối công cụ sớm

Smart Mock tạo các phản hồi thực tế trực tiếp từ đặc tả API của bạn và tuân thủ các ràng buộc JSON Schema. Điều đó mang lại cho nhóm của bạn một cách nhanh chóng để thiết lập các điểm cuối công cụ giả trong khi backend thực tế vẫn đang thay đổi.

Đối với công việc của agent, điều đó quan trọng vì bạn có thể kiểm tra kế hoạch và lựa chọn công cụ trước khi mọi dịch vụ hạ nguồn sẵn sàng. Nếu agent được quản lý của bạn mong đợi một ticket_priority, account_id hoặc enum status, Smart Mock có thể trả về dữ liệu khớp với lược đồ thay vì các phần giữ chỗ được viết tay có thể che giấu lỗi.

Xem thêm Kiểm thử API không cần Postman vào năm 2026 nếu bạn đang chuẩn hóa quy trình làm việc này trong toàn nhóm.

Xây dựng các kịch bản kiểm thử nhiều bước cho quy trình làm việc của agent

Các kịch bản kiểm thử Apidog rất hữu ích khi một lệnh gọi công cụ cung cấp cho lệnh gọi tiếp theo. Tài liệu mô tả hỗ trợ thực thi tuần tự, truyền dữ liệu giữa các yêu cầu, kiểm soát luồng, dữ liệu kiểm thử được xác định trước và tích hợp CI/CD.

Điều đó ánh xạ gọn gàng vào các hệ thống agent.

Một luồng xác thực thực tế có thể trông như sau:

  1. Mock hoặc gọi POST /tasks
  2. Trích xuất task_id được trả về
  3. Gọi GET /tasks/{task_id}
  4. Khẳng định các chuyển đổi trạng thái
  5. Kích hoạt một nhánh lỗi với thông tin xác thực không hợp lệ
  6. Xác minh tải trọng lỗi hướng tới agent vẫn nằm trong hợp đồng

Loại kịch bản này giúp phát hiện lỗi công cụ trước khi môi trường chạy agent phải phục hồi chúng trong môi trường sản xuất.

Xác thực sự trôi dạt của hợp đồng trước khi nó làm hỏng agent

Các agent nhạy cảm với sự trôi dạt của lược đồ. Một trường được đổi tên, một enum lỏng lẻo hơn hoặc một thuộc tính lồng ghép bị thiếu có thể làm hỏng chuỗi công cụ theo những cách trông giống như lỗi suy luận.

Sử dụng Apidog để khóa các dạng yêu cầu và phản hồi bằng OpenAPI và JSON Schema, sau đó chạy các kiểm tra dựa trên kịch bản khi backend thay đổi. Nếu nhóm của bạn sử dụng các định nghĩa công cụ được tạo, điều này thậm chí còn quan trọng hơn vì agent sẽ tin tưởng vào đặc tả bạn cung cấp.

Thêm kiểm tra CLI vào CI để bao quát hồi quy

Apidog CLI có thể chạy các bộ kiểm thử từ dòng lệnh và xuất báo cáo, bao gồm các báo cáo HTML trong thư mục apidog-reports/ được tạo. Điều đó làm cho nó rất phù hợp cho các kiểm tra trước khi hợp nhất (pre-merge) hoặc trước khi triển khai (pre-deploy) trên các công cụ agent.

Một chính sách đơn giản là đủ:

Khi bạn làm như vậy, agent được quản lý của bạn sẽ đi vào sản xuất với một bề mặt công cụ sạch hơn.

Một mẫu kiến trúc đơn giản để bắt đầu

Bạn không cần một nền tảng agent khổng lồ ngay từ ngày đầu tiên. Một mẫu đơn giản là đủ.

Yêu cầu người dùng
  -> Phiên Claude Managed Agent
  -> lựa chọn công cụ
  -> API nội bộ và dịch vụ của bên thứ ba
  -> kết quả tạo tác hoặc hành động
  -> xem xét dấu vết trong Claude Console

Trước khi ra mắt:
  Đặc tả Apidog -> Smart Mock -> Kịch bản kiểm thử -> Kiểm tra hồi quy CLI trong CI

Sự phân chia này là lành mạnh.

Để Claude Managed Agents xử lý các vấn đề về môi trường chạy như quản lý phiên, thực thi được lưu trữ và điều phối. Để Apidog xử lý thiết kế hợp đồng API, mô phỏng, kiểm thử và kiểm tra hồi quy xung quanh các công cụ mà agent của bạn phụ thuộc vào.

Điều đó giữ cho lớp mô hình và lớp chất lượng API tách biệt, đây chính xác là điều mà hầu hết các nhóm cần.

Khi nào sự ra mắt này quan trọng nhất

Claude Managed Agents thú vị nhất đối với năm nhóm sau:

Nếu nhóm của bạn vẫn đang chứng minh trường hợp sử dụng, hãy bắt đầu với một quy trình làm việc hẹp và một bề mặt công cụ nhỏ.

Nếu trường hợp sử dụng đã hoạt động và cơ sở hạ tầng là nút thắt cổ chai, sự ra mắt này đáng được quan tâm nghiêm túc.

Kết luận

Claude Managed Agents không chỉ là một tính năng mô hình khác. Đó là nỗ lực của Anthropic nhằm thương mại hóa phần rắc rối của việc triển khai agent: thực thi được lưu trữ, duy trì, quản trị và theo dõi.

Đó là lý do tại sao lần ra mắt này quan trọng. Nó chuyển câu hỏi xây dựng từ "làm thế nào để chúng ta tạo ra một môi trường chạy agent" sang "những quy trình làm việc nào xứng đáng có một agent, và các công cụ đằng sau nó an toàn đến mức nào?"

Câu hỏi thứ hai là nơi Apidog phù hợp. Trước khi bạn cho phép một agent được lưu trữ chạy dài truy cập API nội bộ, hãy lập mô hình hợp đồng, mô phỏng các phản hồi, kiểm tra các đường dẫn lỗi và thêm độ bao phủ hồi quy trong CI. Công việc đó mang lại cho agent một bề mặt sạch hơn để hoạt động và giúp nhóm của bạn ít gặp bất ngờ hơn sau khi ra mắt.

button

Câu hỏi thường gặp

Claude Managed Agents là gì?

Claude Managed Agents là môi trường chạy được Anthropic quản lý dành cho các agent dựa trên đám mây trên Claude Platform. Nó bao gồm thực thi trong môi trường sandbox, các phiên chạy dài, theo dõi, quyền được giới hạn phạm vi và điều phối được lưu trữ.

Claude Managed Agents có sẵn ngay bây giờ không?

Có. Anthropic đã công bố nó dưới dạng bản beta công khai vào ngày 8 tháng 4 năm 2026. Một số tính năng, chẳng hạn như phối hợp đa-agent và vòng lặp tự đánh giá, vẫn đang trong bản xem trước nghiên cứu.

Claude Managed Agents có giá như thế nào?

Anthropic cho biết giá token tiêu chuẩn của Claude Platform được áp dụng, cộng thêm 0,08 đô la mỗi giờ phiên hoạt động.

Khi nào bạn nên sử dụng Managed Agents thay vì tự xây dựng môi trường chạy của riêng mình?

Sử dụng Managed Agents khi tốc độ đưa vào sản xuất quan trọng hơn việc tùy chỉnh môi trường chạy sâu. Nếu nhóm của bạn cần lưu trữ khác thường, kiểm soát nội bộ nghiêm ngặt hoặc điều phối tùy chỉnh mà một nền tảng được quản lý không thể hỗ trợ, thì tự xây dựng vẫn có thể phù hợp hơn.

Tại sao các nhóm API nên kiểm tra công cụ agent riêng biệt?

Bởi vì nhiều lỗi agent đến từ các hợp đồng công cụ bị hỏng, các vấn đề xác thực hoặc sự trôi dạt lược đồ thay vì lý luận kém. Kiểm tra công cụ riêng biệt giúp bạn phát hiện những lỗi đó trước khi chúng đến môi trường chạy.

Apidog có thể giúp ích như thế nào trong việc kiểm tra công cụ agent?

Apidog giúp bạn xác định hợp đồng công cụ, tạo phản hồi mô phỏng từ lược đồ bằng Smart Mock, chuỗi các xác thực nhiều bước bằng Kịch bản kiểm thử và chạy kiểm tra hồi quy trong CI bằng Apidog CLI.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API

Cách xây dựng AI Agent chạy dài hạn với Claude