Cara Menggunakan Claude Sonnet 5 API Langkah demi Langkah dengan Apidog

Claude Sonnet 5 dirilis pada 30 Juni 2026, dan ini adalah model Sonnet yang paling agentik yang pernah dirilis Anthropic. Performa model ini mendekati Opus 4.8 dalam penggunaan alat dan tugas pengkodean dengan harga yang jauh lebih rendah, yang menjadikannya pilihan utama untuk apa pun yang memanggil alat dalam sebuah loop. Panduan ini menunjukkan cara memanggil API Claude Sonnet 5 secara end-to-end: mendapatkan kunci, mengirim permintaan pertama Anda di curl dan Python, membaca respons, menangani default pemikiran adaptif yang baru, menghindari tiga perubahan permintaan yang mengembalikan kesalahan 400, melakukan streaming output yang panjang, dan menghitung token dengan tokenizer baru.

Anda juga akan menyiapkan semuanya di Apidog sehingga permintaan Anda tersimpan dalam koleksi yang dapat digunakan kembali dengan lingkungan yang disimpan dan pengujian otomatis, alih-alih tersebar di seluruh riwayat shell. Jika Anda pernah memanggil API Pesan sebelumnya, sebagian besar akan terasa familier. ID modelnya adalah claude-sonnet-5, dan bentuk permintaannya sesuai dengan yang sudah Anda gunakan.

tombol

Yang Anda butuhkan sebelum memulai

Anda membutuhkan tiga hal untuk memanggil API.

Akun Anthropic dan kunci API dari konsol platform Claude.
ID model: claude-sonnet-5. Ini adalah string yang persis sama, tanpa akhiran tanggal.
Cara untuk mengirim permintaan HTTP. curl berfungsi untuk pengujian cepat. Apidog berfungsi lebih baik setelah Anda melakukan iterasi.

Sonnet 5 tersedia untuk semua pelanggan API, ditambah Amazon Bedrock (melalui Claude Platform di AWS), Google Cloud melalui Vertex AI, dan Microsoft Foundry dalam pratinjau. Panduan ini menggunakan API Anthropic langsung. Isi permintaan sama di seluruh platform; hanya otentikasi dan host endpoint yang berubah.

Dapatkan kunci API Anda

Masuk ke konsol platform Claude, buka bagian kunci API, dan buat kunci baru. Salin sekali dan simpan di tempat yang aman, karena konsol tidak akan menampilkannya lagi. Jangan pernah menulis kunci secara hard-code di kode sumber Anda atau melakukan commit ke git. Atur sebagai variabel lingkungan sebagai gantinya:

export ANTHROPIC_API_KEY="sk-ant-..."

Jika Anda memiliki perjanjian ZDR, Sonnet 5 mendukung penyimpanan data nol, jadi tidak ada yang berubah tentang permukaan API untuk Anda di sini.

Permintaan pertama Anda

API Sonnet 5 menggunakan endpoint Pesan Anthropic. Berikut adalah permintaan minimal dengan curl.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Write a haiku about API testing."}
    ]
  }'

Permintaan yang sama dengan Python SDK:

import os
from anthropic import Anthropic

client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Write a haiku about API testing."}
    ],
)

print(message.content[0].text)

Dua bidang melakukan sebagian besar pekerjaan. model memilih Sonnet 5. max_tokens membatasi total output. Teruslah membaca, karena max_tokens berperilaku berbeda pada Sonnet 5 dibandingkan Sonnet 4.6, dan ini adalah hal yang paling mudah untuk salah.

Membaca respons

Panggilan yang berhasil mengembalikan HTTP 200 dengan badan JSON seperti ini (dipangkas):

{
  "id": "msg_01ABC...",
  "type": "message",
  "role": "assistant",
  "model": "claude-sonnet-5",
  "content": [
    {"type": "text", "text": "Assertions green,\nendpoints answer on the first try,\nship the merge tonight."}
  ],
  "stop_reason": "end_turn",
  "usage": {
    "input_tokens": 18,
    "output_tokens": 27
  }
}

Beberapa bidang penting untuk pekerjaan nyata.

content adalah sebuah array. Teks berada dalam blok di mana type adalah "text". Dengan penggunaan alat atau pemikiran diaktifkan, Anda akan melihat jenis blok lain dalam array yang sama, jadi lakukan iterasi; jangan berasumsi content[0] selalu menjadi jawaban Anda.
stop_reason memberi tahu Anda mengapa generasi berakhir. end_turn adalah normal. max_tokens berarti Anda mencapai batas dan output terpotong. refusal adalah baru dan patut dipahami (di bawah).
usage melaporkan input_tokens dan output_tokens. Ini adalah dasar penagihan Anda, dan angkanya lebih tinggi pada Sonnet 5 untuk teks yang sama karena tokenizer baru.

Alasan penghentian penolakan

Sonnet 5 adalah model tingkat Sonnet pertama dengan perlindungan keamanan siber real-time. Jika permintaan menyentuh topik siber yang dilarang atau berisiko tinggi, model dapat menolak. Penolakan kembali sebagai HTTP 200 normal dengan stop_reason: "refusal", bukan sebagai kesalahan. Tangani dalam kode penguraian respons Anda dengan cara yang sama Anda akan menangani alasan penghentian non-end_turn, alih-alih memperlakukannya sebagai panggilan HTTP yang gagal.

Pemikiran adaptif diaktifkan secara default

Ini adalah perubahan perilaku terbesar dari Sonnet 4.6, dan itu membingungkan orang. Pada Sonnet 4.6, tidak ada bidang thinking berarti tidak ada pemikiran. Pada Sonnet 5, pemikiran adaptif diaktifkan secara default. Permintaan tanpa bidang thinking sekarang berjalan dengan pemikiran adaptif, dan token pemikiran dihitung dalam total output Anda.

Karena max_tokens adalah batas keras pada total output (token pemikiran ditambah teks respons), nilai max_tokens yang nyaman pada 4.6 sekarang dapat memotong jawaban Anda sebelum selesai. Jika Anda memigrasikan beban kerja yang tidak pernah menggunakan pemikiran dan mengatur max_tokens yang ketat, naikkan atau harapkan pemotongan.

Untuk mematikan pemikiran sepenuhnya:

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    thinking={"type": "disabled"},
    messages=[
        {"role": "user", "content": "Return only the JSON, no reasoning."}
    ],
)

Untuk tetap mengaktifkan pemikiran adaptif dan mengontrol seberapa keras model bekerja, gunakan parameter effort alih-alih mencoba mengatur anggaran token manual. Effort mendukung low, medium, high, dan xhigh. Usaha yang lebih tinggi berarti pemikiran yang lebih dalam dan pengeluaran token yang lebih banyak. Anthropic mendokumentasikan perilaku di halaman pemikiran adaptif. Perhatikan nilai bidang adalah {"type": "adaptive"}, bukan angka budget_tokens.

Tiga perubahan permintaan yang mengembalikan 400

Jika Anda mem-porting kode dari Sonnet 4.6 atau model Claude yang lebih lama, tiga hal yang dulunya berfungsi kini mengembalikan kesalahan 400. Perbaiki sebelum Anda bermigrasi.

Pemikiran yang diperpanjang secara manual dihapus. thinking: {type: "enabled", budget_tokens: N} mengembalikan 400. Ini sudah tidak digunakan lagi pada 4.6. Gunakan pemikiran adaptif ditambah parameter usaha sebagai gantinya.
Parameter sampling ditolak. Mengatur temperature, top_p, atau top_k ke nilai non-default mengembalikan 400. Hapus. Mengabaikannya, atau membiarkannya pada default, tidak masalah. Arahkan perilaku dengan instruksi system-prompt sebagai gantinya. Batasan ini sudah ada di Opus 4.7 ke atas; ini baru untuk kelas Sonnet.
Prefilling pesan asisten tidak didukung. Memuat awal giliran asisten mengembalikan 400. Gunakan output terstruktur atau output_config.format atau instruksi system-prompt untuk membentuk output sebagai gantinya.

Segala sesuatu yang lain yang berjalan di Sonnet 4.6 berjalan di Sonnet 5 tanpa perubahan kode lainnya. Bentuk permintaan, respons, dan streaming identik. Untuk panduan migrasi yang lebih lengkap, lihat panduan kami di API Claude Sonnet 4.6, yang mencakup permukaan permintaan yang sama yang diwarisi Sonnet 5.

Streaming untuk output besar

Sonnet 5 mendukung hingga 128.000 token output. Untuk respons yang panjang, atau permintaan apa pun di mana pemikiran adaptif mendorong total output tinggi, streaming hasilnya sehingga Anda mendapatkan token saat dihasilkan alih-alih menunggu respons penuh. Streaming juga menghindari batas waktu klien pada generasi besar.

with client.messages.stream(
    model="claude-sonnet-5",
    max_tokens=8000,
    messages=[
        {"role": "user", "content": "Draft an OpenAPI 3.1 spec for a bookstore checkout API."}
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

Bentuk event streaming sama dengan Sonnet 4.6, sehingga penangan stream yang ada bekerja tanpa perubahan.

Penghitungan token dengan tokenizer baru

Sonnet 5 menggunakan tokenizer baru. Teks input yang sama menghasilkan sekitar 30% lebih banyak token daripada Sonnet 4.6, sekitar 1,3x. Ini bukan perubahan API. Bentuk permintaan, respons, dan streaming identik, dan Anda tidak perlu mengubah kode apa pun untuk itu. Tetapi ini memengaruhi apa pun yang Anda ukur atau anggarkan dalam token.

Angka usage dan hasil penghitungan token Anda lebih tinggi untuk teks yang sama. Hitung ulang terhadap Sonnet 5; jangan menggunakan hitungan 4.6 Anda.
Jendela konteks 1.000.000-token menampung lebih sedikit teks secara rata-rata, karena setiap token sekarang mencakup lebih sedikit teks.
Nilai max_tokens yang ukurannya mendekati output yang Anda harapkan sekarang dapat terpotong. Kunjungi kembali.
Biaya per permintaan untuk teks yang setara bisa lebih tinggi meskipun harga per token tidak berubah.

Gunakan endpoint hitung-token sebelum Anda mengirim, sehingga Anda menganggarkan berdasarkan angka nyata Sonnet 5:

count = client.messages.count_tokens(
    model="claude-sonnet-5",
    messages=[
        {"role": "user", "content": "Estimate the tokens for this prompt on Sonnet 5."}
    ],
)
print(count.input_tokens)

Anthropic mendokumentasikan ini di halaman penghitungan token.

Kesalahan, batas laju, dan dasar-dasar biaya

Semantik HTTP standar berlaku. 400 berarti permintaan salah bentuk (tiga perubahan di atas adalah penyebab umum pada Sonnet 5). 401 berarti kunci API salah atau hilang. 429 berarti Anda mencapai batas laju. Baca header retry-after dan mundur sebelum mencoba lagi. Ingatlah bahwa penolakan adalah 200, bukan kesalahan, jadi jangan merutekannya melalui logika coba ulang Anda.

Mengenai harga, tarif pengantar adalah $2 per juta token input dan $10 per juta token output, berlaku hingga 31 Agustus 2026. Setelah itu akan beralih ke standar $3 per juta input dan $15 per juta output, tarif per token yang sama dengan Sonnet 4.6. Karena perubahan tokenizer, biaya permintaan teks yang setara masih bisa lebih tinggi daripada pada 4.6 meskipun tarif per token cocok, jadi modelkan beban kerja nyata Anda dengan penghitungan token daripada berasumsi paritas datar. Untuk panduan biaya yang lebih mendalam, lihat perincian biaya API Claude dan panduan batas laju API Claude kami. Priority Tier tidak tersedia di Sonnet 5.

Uji dan atur panggilan Sonnet 5 Anda di Apidog

Setelah Anda melewati perintah curl pertama, Anda ingin permintaan Anda disimpan, kunci Anda disimpan sekali, dan respons Anda diperiksa secara otomatis. Di situlah Apidog cocok. Ini adalah platform API all-in-one, jadi permintaan yang sama yang Anda kirim secara manual menjadi aset yang dapat digunakan kembali dan diuji. Unduh Apidog untuk mengikuti.

tombol

Berikut adalah pengaturan praktis untuk API Sonnet 5.

1. Buat permintaan. Tambahkan permintaan HTTP baru di Apidog. Atur metode ke POST dan URL ke https://api.anthropic.com/v1/messages. Tambahkan header anthropic-version: 2023-06-01 dan content-type: application/json. Tempelkan badan JSON dengan "model": "claude-sonnet-5".

2. Simpan kunci API sebagai variabel lingkungan. Buat lingkungan (misalnya, "Anthropic Production") dan tambahkan variabel bernama ANTHROPIC_API_KEY. Referensikan dalam header x-api-key sebagai {{ANTHROPIC_API_KEY}}. Sekarang kunci Anda berada di satu tempat, di luar badan permintaan Anda, dan Anda dapat menukar lingkungan tanpa mengedit permintaan.

3. Simpan dalam koleksi. Kelompokkan permintaan Sonnet 5 Anda, panggilan pesan biasa, panggilan streaming, panggilan alat, ke dalam satu koleksi. Seluruh tim Anda mendapatkan permintaan yang diketahui baik yang sama alih-alih menyalin potongan curl ke mana-mana.

4. Tambahkan tes otomatis. Lampirkan assertion ke permintaan sehingga eksekusi gagal dengan keras ketika ada sesuatu yang melenceng. Misalnya:

Nyatakan status respons adalah 200.
Nyatakan model sama dengan claude-sonnet-5.
Nyatakan stop_reason ada dan bukan max_tokens (cara cepat untuk menangkap pemotongan setelah perubahan tokenizer).
Nyatakan usage.output_tokens lebih besar dari 0.

Rantai ini ke dalam skenario pengujian dan jalankan di CI setiap kali Anda mengubah prompt atau memigrasikan versi model. Assertion terakhir itu adalah cara termurah untuk menangkap regresi max_tokens yang disebabkan oleh pemikiran adaptif yang sekarang diaktifkan secara default.

5. Mock endpoint. Mock cerdas Apidog mengembalikan respons realistis untuk bentuk Pesan, sehingga kode klien aplikasi Anda, penanganan kesalahan, dan parser streaming dapat dibangun dan diuji tanpa menghabiskan satu token pun. Itu berguna untuk pekerjaan frontend dan untuk pengujian beban lapisan integrasi Anda sendiri.

Jika Anda beralih dari Postman untuk ini, pandangan kami tentang pengujian API tanpa Postman pada tahun 2026 membahas mengapa alur kerja desain-plus-tes-plus-mock dalam satu alat menghemat bolak-balik. Lebih suka terminal? Panduan lengkap Apidog CLI menunjukkan cara menjalankan tes yang sama ini dalam pipeline.

tombol

FAQ

Apa ID model Claude Sonnet 5?

Ini adalah claude-sonnet-5, string yang persis sama tanpa akhiran tanggal. Gunakan dalam bidang model permintaan Pesan Anda. Ini adalah pengganti langsung untuk claude-sonnet-4-6, jadi dalam banyak kasus Anda mengubah ID model dan meninjau tiga hal: pemikiran adaptif yang sekarang diaktifkan secara default, parameter sampling yang dihapus, dan anggaran pemikiran manual yang dihapus. Untuk gambaran lengkap model, baca apa itu Claude Sonnet 5.

Mengapa output max_tokens saya terpotong pada Sonnet 5?

Pemikiran adaptif diaktifkan secara default, dan token pemikiran dihitung terhadap max_tokens bersama dengan teks respons Anda. Jika batas Anda disesuaikan untuk beban kerja tanpa pemikiran pada Sonnet 4.6, naikkan, atau atur thinking: {"type": "disabled"} jika Anda tidak ingin ada pemikiran sama sekali. Tokenizer baru menghasilkan sekitar 30% lebih banyak token untuk teks yang sama, yang memperparah efeknya.

Apakah saya perlu mengubah kode saya untuk bermigrasi dari Sonnet 4.6?

Hanya di tiga tempat. Hapus temperature, top_p, dan top_k non-default. Hapus thinking: {type: "enabled", budget_tokens: N} apa pun. Hapus prefilling pesan asisten. Masing-masing akan mengembalikan 400 pada Sonnet 5. Segala sesuatu yang lain, termasuk bentuk streaming dan respons, tidak berubah. Jika Anda juga menjalankan Opus, panduan API Opus 4.8 kami menggunakan permukaan Pesan yang sama.

Apakah penolakan adalah kesalahan yang perlu saya tangani?

Tidak. Penolakan keamanan siber mengembalikan HTTP 200 dengan stop_reason: "refusal". Perlakukan sebagai respons normal dengan alasan penghentian non-end_turn, bukan sebagai permintaan yang gagal. Jangan kirim melalui jalur coba ulang-saat-error Anda.

Berapa biaya API Sonnet 5?

Harga pengantar adalah $2 per juta token input dan $10 per juta token output hingga 31 Agustus 2026, kemudian $3 dan $15 setelah itu. Tarif per token cocok dengan Sonnet 4.6, tetapi tokenizer baru berarti teks yang setara dapat menelan biaya lebih banyak, jadi ukur dengan penghitungan token alih-alih berasumsi paritas.