Cara Membuat AI Agent Berumur Panjang dengan Claude

Intinya

Claude Managed Agents adalah runtime terkelola baru Anthropic untuk agen produksi. Ini memberi Anda eksekusi terisolasi (sandboxed), sesi berjalan lama, izin lingkup, pelacakan, dan koordinasi multi-agen opsional tanpa memaksa tim Anda membangun infrastruktur itu dari awal. Jika agen Anda perlu memanggil alat internal, API pihak ketiga, atau alur kerja yang panjang, Apidog membantu Anda memvalidasi kontrak alat tersebut sebelum Anda membiarkan agen menyentuh sistem yang sebenarnya.

Pendahuluan

Claude Managed Agents menargetkan salah satu alasan terbesar proyek agen macet: runtime lebih sulit untuk dikirimkan daripada prompt. Anthropic sekarang menawarkan cara terkelola untuk menjalankan agen berumur panjang dengan sandboxing, izin, pelacakan, dan persistensi sesi yang sudah ada, sehingga tim dapat menghabiskan lebih sedikit waktu untuk membangun pipa dan lebih banyak waktu untuk mengirimkan alur kerja yang berguna.

💡

Itu mengubah percakapan untuk tim API. Bagian yang sulit bukan lagi apakah Claude dapat memecahkan masalah melalui suatu tugas. Bagian yang sulit adalah apakah agen dapat memanggil alat yang tepat dengan aman, pulih dari respons yang buruk, dan terus bekerja ketika suatu tugas berjalan lebih lama dari permintaan obrolan normal.

tombol

Jika Anda berencana untuk mengekspos API internal atau titik akhir alat ke agen, Anda harus menguji permukaan itu sebelum diluncurkan. Apidog memberi Anda cara langsung untuk menirukan titik akhir alat, memvalidasi skema JSON, merangkai skenario pengujian multi-langkah, dan menjalankan pemeriksaan regresi di CI dengan Apidog CLI. Itu adalah titik awal yang lebih aman daripada memberikan agen terkelola baru akses langsung dan menemukan bug kontrak dalam produksi.

Mengapa agen produksi masih sulit untuk dikirimkan

Agen demo akhir pekan mudah. Agen produksi tidak.

Setelah Anda melewati satu permintaan dan respons, bagian-bagian sulit muncul dengan cepat:

Anda memerlukan eksekusi kode yang aman untuk tindakan yang menghasilkan file, mengubah data, atau memanggil skrip kustom.
Anda memerlukan state yang bertahan dari gangguan jaringan dan penyegaran browser.
Anda memerlukan batas izin yang jelas sehingga agen dapat membaca satu sistem tanpa secara diam-diam mengedit yang lain.
Anda memerlukan jejak untuk debugging karena "model melakukan sesuatu yang aneh" tidak cukup selama tinjauan insiden.
Anda memerlukan cara untuk mencoba kembali langkah-langkah yang gagal tanpa memutar ulang seluruh alur kerja dari nol.
Anda memerlukan kontrak yang dapat diprediksi untuk API dan alat yang akan dipanggil agen.

Inilah sebabnya mengapa banyak tim terjebak antara prototipe dan peluncuran. Bagian model terus meningkat. Bagian operasional masih memakan jadwal.

Pola itu familiar di seluruh produk agen. Tim yang membangun asisten pengkodean, agen penelitian, alat persiapan rapat, dan otomatisasi alur kerja semuanya menemui hambatan yang sama: runtime menjadi produk tersendiri. Anthropic mencoba menggabungkan lapisan itu ke dalam layanan terkelola.

Apa saja yang termasuk dalam Claude Managed Agents

Menurut postingan peluncuran Anthropic, Claude Managed Agents menggabungkan kerangka orkestrasi yang disesuaikan Claude dengan infrastruktur produksi yang di-hosting. Dalam praktiknya, peluncuran ini memperkenalkan lima kemampuan yang penting bagi tim API.

1. Runtime agen terkelola

Anda mendefinisikan pekerjaan, akses alat, dan batasan. Anthropic menjalankan loop pada infrastrukturnya sendiri. Itu menghilangkan sejumlah besar pekerjaan backend kustom untuk tim yang seharusnya membangun antrian, pekerja sandbox, lapisan sesi, dan pengontrol eksekusi.

Ini adalah nilai terbesar dalam peluncuran. Sebagian besar tim sudah dapat memanggil model. Yang tidak mereka miliki adalah runtime yang bersih untuk pekerjaan nyata.

2. Sesi berjalan lama

Anthropic mengatakan sesi dapat berjalan selama berjam-jam dan mempertahankan output serta kemajuan meskipun klien terputus. Itu penting untuk tugas penelitian, pembuatan file besar, perencanaan multi-langkah, atau pekerjaan operasional latar belakang yang tidak sesuai dengan permintaan interaktif singkat.

Jika agen Anda menulis laporan, mengaudit basis kode, memproses dokumen, atau merakit kiriman dari beberapa sistem, sesi berjalan lama menghilangkan batasan utama. Anda berhenti merancang di sekitar jendela obrolan singkat dan mulai merancang di sekitar pekerjaan yang sudah selesai.

3. Eksekusi terisolasi dan tata kelola

Peluncuran ini menekankan sandboxing yang aman, otentikasi, identitas, dan izin lingkup. Itu bukan detail sampingan. Itu adalah perbedaan antara demo yang menarik dan sistem yang siap untuk perusahaan.

Agen yang dapat membuka permintaan tarik, membuat spreadsheet, atau berinteraksi dengan data keuangan seharusnya tidak pernah memiliki akses luas secara default. Tata kelola terkelola memungkinkan Anda membatasi apa yang dapat dilakukan runtime dan memberikan tim keamanan permukaan tinjauan yang lebih jelas.

4. Pelacakan dan pemecahan masalah bawaan

Anthropic mengatakan panggilan alat, keputusan, analitik, dan mode kegagalan terlihat di Claude Console. Pelacakan yang baik memperpendek jarak antara "sesuatu gagal" dan "ini adalah permintaan, output alat, dan cabang yang menyebabkannya."

Itu sangat berguna ketika Anda men-debug alat daripada prompt. Dalam banyak sistem agen, tautan terlemah adalah kontrak API di sekitar alat, bukan model itu sendiri.

5. Koordinasi multi-agen, dalam pratinjau penelitian

Anthropic juga mengumumkan koordinasi multi-agen, di mana agen dapat mengarahkan agen lain untuk memparalelkan pekerjaan. Ini masih dalam pratinjau penelitian, jadi ini bukan bagian dari peluncuran yang akan saya jadikan inti artikel. Namun, ini menandakan ke mana platform ini akan pergi: dari pekerja tunggal ke tim agen yang diorkestrasi.

Bagaimana ini mengubah arsitektur produk agen

Sebelum Managed Agents, tim tipikal memiliki dua pilihan.

Opsi A: Bangun runtime sendiri

Ini memberi Anda kontrol maksimum. Ini juga berarti Anda memiliki:

isolasi kontainer atau VM
siklus hidup eksekusi alat
persistensi sesi
pencatatan titik pemeriksaan
rahasia dan kredensial
perizinan
log dan jejak
percobaan ulang dan pemulihan
pemeliharaan operasional setelah peluncuran

Jalur ini masih masuk akal ketika Anda membutuhkan infrastruktur yang tidak biasa, persyaratan hosting internal yang ketat, atau logika orkestrasi yang sangat kustom.

Opsi B: Gunakan runtime terkelola

Ini menukar sedikit kontrol dengan kecepatan. Runtime sudah ada, dan tim Anda dapat menghabiskan waktu untuk desain tugas, UX, dan kualitas alat daripada membangun perpipaan.

Itulah mengapa Anthropic membingkai Managed Agents sebagai cara untuk mencapai produksi 10 kali lebih cepat. Postingan peluncuran juga mengatakan pengujian internal pada pembuatan file terstruktur menunjukkan peningkatan keberhasilan tugas hingga 10 poin dibandingkan loop prompt standar, dengan peningkatan terbesar pada masalah yang lebih sulit.

Pergeseran penting adalah ini: infrastruktur agen terkelola menjadi kategori produk, bukan proyek sampingan di dalam stack Anda.

Claude Managed Agents vs. infrastruktur agen DIY

Area keputusan	Claude Managed Agents	Runtime DIY
Waktu hingga peluncuran produksi pertama	Cepat, karena runtime sudah di-hosting	Lebih lambat, karena Anda membangun runtime terlebih dahulu
Sandboxing dan tata kelola	Bawaan	Anda memiliki desain penuh
Sesi berjalan lama	Bawaan	Anda membangun dan memelihara state sesi
Pelacakan	Tersedia di Claude Console	Anda membangun lapisan observabilitas Anda sendiri
Fleksibilitas	Baik untuk model dan pola runtime yang didukung	Fleksibilitas tertinggi
Beban operasional berkelanjutan	Lebih rendah	Lebih tinggi
Paling cocok	Tim yang ingin segera mengirimkan produk agen	Tim dengan infrastruktur yang tidak biasa atau kebutuhan runtime kustom yang ketat

Berikut adalah aturan praktis.

Pilih Managed Agents jika tim Anda ingin mengirimkan produk agen kuartal ini dan pembeda utama Anda adalah alur kerja, UI, atau alat proprietary di baliknya.

Pilih DIY jika runtime itu sendiri adalah bagian dari keunggulan Anda, Anda memerlukan kontrol penuh atas hosting dan orkestrasi, atau model keamanan Anda memerlukan penanganan kustom yang lebih dalam daripada yang dapat diberikan oleh layanan terkelola.

Harga dan trade-off yang harus Anda pahami

Managed Agents menggunakan harga token standar Claude Platform ditambah $0,08 per jam sesi aktif. Itu masuk akal untuk agen yang melakukan pekerjaan nyata dari waktu ke waktu, tetapi itu mengubah cara Anda harus memikirkan biaya.

Dengan alur kerja API obrolan normal, biaya sebagian besar berasal dari token. Dengan runtime terkelola, biaya berasal dari token ditambah waktu aktif yang berlalu. Itu berarti Anda harus merancang agen untuk menyelesaikan pekerjaan dengan bersih, gagal cepat pada input yang buruk, dan menghindari loop yang tidak perlu.

Tiga pertanyaan penting sebelum Anda mengadopsinya:

Berapa sering sebuah sesi akan berjalan selama beberapa menit versus beberapa jam?
Berapa banyak nilai yang dihasilkan satu eksekusi yang selesai untuk pengguna?
Tugas mana yang harus tetap sinkron, dan mana yang harus dipindahkan ke eksekusi latar belakang?

Jika jawabannya adalah "agen kami sebagian besar melakukan panggilan deterministik singkat," integrasi API normal mungkin masih cukup.

Jika jawabannya adalah "agen kami meneliti, menulis, menambal, mengoordinasikan alat, dan mengembalikan kiriman nanti," runtime terkelola mulai terlihat jauh lebih menarik.

Cara menguji API alat agen dengan Apidog sebelum peluncuran

Di sinilah artikel perlu lebih spesifik.

Titik lemah dalam banyak peluncuran agen bukanlah modelnya. Ini adalah lapisan alat. Jika agen Anda dapat memanggil search_customers, create_invoice, open_pr, atau send_slack_message, setiap alat tersebut adalah kontrak API. Anda perlu tahu apa yang terjadi ketika payload salah format, skema melenceng, bidang yang diperlukan hilang, atau token otentikasi memiliki lingkup yang salah.

Diagram alur kerja dengan Apidog untuk pengujian API

Apidog sangat cocok untuk alur kerja ini karena Anda dapat memodelkan kontrak alat sebelum agen mencapai produksi.

Gunakan Smart Mock untuk menyiapkan titik akhir alat lebih awal

Smart Mock menghasilkan respons realistis langsung dari spesifikasi API Anda dan menghormati batasan Skema JSON. Itu memberi tim Anda cara cepat untuk menyiapkan titik akhir alat palsu sementara backend yang sebenarnya masih berubah.

Untuk pekerjaan agen, itu penting karena Anda dapat menguji perencanaan dan pemilihan alat sebelum setiap layanan downstream siap. Jika agen terkelola Anda mengharapkan ticket_priority, account_id, atau enum status, Smart Mock dapat mengembalikan data yang cocok dengan skema daripada placeholder yang ditulis tangan yang menyembunyikan bug.

Lihat juga Pengujian API Tanpa Postman di Tahun 2026 jika Anda menstandardisasi alur kerja ini di seluruh tim.

Bangun Skenario Pengujian multi-langkah untuk alur kerja agen

Skenario Pengujian Apidog berguna ketika satu panggilan alat memberi makan yang berikutnya. Dokumen tersebut menjelaskan dukungan untuk eksekusi berurutan, penerusan data antar permintaan, kontrol alur, data pengujian yang telah ditentukan, dan integrasi CI/CD.

Itu cocok dengan sistem agen.

Alur validasi yang realistis mungkin terlihat seperti ini:

Mock atau panggil POST /tasks
Ekstrak task_id yang dikembalikan
Panggil GET /tasks/{task_id}
Tegaskan transisi status
Picukan cabang kesalahan dengan kredensial tidak valid
Verifikasi payload kesalahan yang menghadap agen tetap sesuai kontrak

Skenario semacam ini menangkap bug alat sebelum runtime agen harus memulihkannya dalam produksi.

Validasi pergeseran kontrak sebelum merusak agen

Agen sensitif terhadap pergeseran skema. Bidang yang diganti namanya, enum yang lebih longgar, atau properti bersarang yang hilang dapat merusak rantai alat dengan cara yang terlihat seperti kegagalan penalaran.

Gunakan Apidog untuk mengunci bentuk permintaan dan respons dengan OpenAPI dan Skema JSON, lalu jalankan pemeriksaan berbasis skenario saat backend berubah. Jika tim Anda menggunakan definisi alat yang dibuat, ini bahkan lebih penting karena agen akan mempercayai spesifikasi yang Anda berikan kepadanya.

Tambahkan pemeriksaan CLI ke CI untuk cakupan regresi

Apidog CLI dapat menjalankan rangkaian pengujian dari baris perintah dan menghasilkan laporan, termasuk laporan HTML di direktori apidog-reports/ yang dibuat. Itu membuatnya cocok untuk pemeriksaan pra-gabung atau pra-deploy pada alat agen.

Kebijakan sederhana sudah cukup:

setiap titik akhir alat memerlukan pemeriksaan skema
setiap tindakan tulis memerlukan setidaknya satu pengujian kegagalan otentikasi
setiap alur kerja berjalan lama memerlukan kasus waktu habis dan coba lagi
setiap alat berisiko tinggi memerlukan satu pengujian negatif untuk state yang buruk

Ketika Anda melakukan itu, agen terkelola Anda masuk ke produksi dengan permukaan alat yang lebih bersih.

Pola arsitektur sederhana untuk memulai

Anda tidak memerlukan platform agen besar di hari pertama. Pola sederhana sudah cukup.

Permintaan pengguna
  -> sesi Claude Managed Agent
  -> pemilihan alat
  -> API internal dan layanan pihak ketiga
  -> artefak hasil atau tindakan
  -> tinjauan jejak di Claude Console

Sebelum peluncuran:
  Spesifikasi Apidog -> Smart Mock -> Skenario Pengujian -> Regresi CLI di CI

Pemisahan ini sehat.

Biarkan Claude Managed Agents menangani masalah runtime seperti manajemen sesi, eksekusi terkelola, dan orkestrasi. Biarkan Apidog menangani desain kontrak API, mock, pengujian, dan pemeriksaan regresi di sekitar alat yang bergantung pada agen Anda.

Itu menjaga lapisan model dan lapisan kualitas API tetap terpisah, yang persis seperti yang dibutuhkan sebagian besar tim.

Kapan peluncuran ini paling penting

Claude Managed Agents paling menarik untuk lima kelompok:

tim yang membangun agen pengkodean atau debugging
tim yang menjalankan alur kerja dokumen atau penelitian yang membutuhkan lebih dari beberapa menit
tim produk yang menginginkan eksekusi tugas latar belakang di dalam aplikasi
tim perusahaan yang membutuhkan tata kelola, pelacakan, dan izin lingkup
tim API yang sudah memiliki alat internal dan menginginkan rute yang lebih cepat ke produk agen

Jika tim Anda masih membuktikan kasus penggunaan, mulailah dengan alur kerja yang sempit dan permukaan alat yang kecil.

Jika kasus penggunaan sudah berfungsi dan infrastruktur adalah hambatan, peluncuran ini patut mendapat perhatian serius.

Kesimpulan

Claude Managed Agents bukan hanya fitur model lain. Ini adalah upaya Anthropic untuk memproduksikan bagian rumit dari pengiriman agen: eksekusi terkelola, persistensi, tata kelola, dan pelacakan.

Itulah mengapa peluncuran ini penting. Ini menggeser pertanyaan pembangunan dari "bagaimana kita membuat runtime agen" menjadi "alur kerja mana yang layak mendapatkan agen, dan seberapa aman alat di baliknya?"

Pertanyaan kedua itulah tempat Apidog cocok. Sebelum Anda mengekspos API internal ke agen terkelola yang berjalan lama, modelkan kontraknya, mock responsnya, uji jalur kegagalannya, dan tambahkan cakupan regresi di CI. Pekerjaan itu memberi agen permukaan yang lebih bersih untuk beroperasi dan memberi tim Anda lebih sedikit kejutan setelah peluncuran.

tombol

FAQ

Apa itu Claude Managed Agents?

Claude Managed Agents adalah runtime terkelola Anthropic untuk agen berbasis cloud di Claude Platform. Ini mencakup eksekusi terisolasi (sandboxed), sesi berjalan lama, pelacakan, izin lingkup, dan orkestrasi terkelola.

Apakah Claude Managed Agents sudah tersedia sekarang?

Ya. Anthropic mengumumkannya sebagai beta publik pada 8 April 2026. Beberapa fitur, seperti koordinasi multi-agen dan loop evaluasi diri, masih dalam pratinjau penelitian.

Bagaimana harga Claude Managed Agents?

Anthropic mengatakan harga token standar Claude Platform berlaku, ditambah $0,08 per jam sesi aktif.

Kapan Anda harus menggunakan Managed Agents daripada membangun runtime Anda sendiri?

Gunakan Managed Agents ketika kecepatan produksi lebih penting daripada kustomisasi runtime yang mendalam. Jika tim Anda membutuhkan hosting yang tidak biasa, kontrol internal yang ketat, atau orkestrasi kustom yang tidak dapat didukung oleh platform terkelola, DIY mungkin masih lebih cocok.

Mengapa tim API harus menguji alat agen secara terpisah?

Karena banyak kegagalan agen berasal dari kontrak alat yang rusak, masalah otentikasi, atau pergeseran skema daripada penalaran yang buruk. Menguji alat secara terpisah membantu Anda menangkap kegagalan tersebut sebelum mencapai runtime.

Bagaimana Apidog dapat membantu pengujian alat agen?

Apidog membantu Anda mendefinisikan kontrak alat, menghasilkan respons tiruan dari skema dengan Smart Mock, merangkai validasi multi-langkah dengan Skenario Pengujian, dan menjalankan pemeriksaan regresi di CI dengan Apidog CLI.