GPT API อัตราจำกัด: ระดับ, ขีดจำกัดการใช้งาน และวิธีทดสอบด้วย Apidog

Ashley Innocent

Ashley Innocent

13 May 2026

GPT API อัตราจำกัด: ระดับ, ขีดจำกัดการใช้งาน และวิธีทดสอบด้วย Apidog

Apidog สำหรับองค์กร

ติดตั้งภายในองค์กร

SSO & RBAC

รองรับ SOC 2

สำรวจ Apidog Enterprise

คุณส่งฟังก์ชันที่เรียกใช้ GPT API ออกไปใช้งาน มันทำงานได้ดีใน staging แต่เมื่อผู้ใช้ร้อยคนแรกเข้ามาใช้งานใน production log ของคุณก็เต็มไปด้วย 429 Too Many Requests ตอนนี้คุณกำลังเดาว่า: มันเป็นจำนวนคำขอต่อนาที (requests per minute), โทเค็นต่อนาที (tokens per minute) หรือขีดจำกัดรายวัน (daily caps)? คุณยังอยู่ใน Tier 1 อยู่หรือเปล่า? โมเดลที่คุณเปลี่ยนไปใช้เมื่อสัปดาห์ที่แล้วมีข้อจำกัดที่เข้มงวดกว่าโมเดลเก่าหรือไม่?

💡
บทความนี้จะตอบคำถามเหล่านั้นสำหรับโมเดล GPT ปัจจุบันทั้งหมด จากนั้นจะแสดงวิธีตรวจสอบขีดจำกัดที่คุณใช้งานจริงด้วยการเรียกใช้ API เพียงไม่กี่ครั้งและการทดสอบโหลดขนาดเล็กใน Apidog คุณจะได้เรียนรู้วิธีการทำงานซ้ำๆ ที่สามารถเรียกใช้ได้ทุกเมื่อที่สงสัยว่ามีปัญหาเกี่ยวกับอัตราการจำกัด และชุดคำขอที่สามารถบันทึกไว้ให้ทีมของคุณนำกลับมาใช้ใหม่ได้

หากคุณเคยทำงานกับ OpenAI มาก่อน คุณจะทราบดีว่าเรื่องของอัตราการจำกัดนั้นซับซ้อนขึ้นเรื่อยๆ กับโมเดลใหม่ทุกรุ่น GPT-5.5 มีขีดจำกัดที่แตกต่างจาก GPT-4.1 โมเดลรูปภาพมีการนับที่แตกต่างจากโมเดลข้อความ และระดับการใช้งานของคุณจะเปลี่ยนไปโดยที่คุณไม่รู้ตัวเมื่อคุณใช้จ่ายเพิ่มขึ้น Apidog มอบพื้นที่ทำงานเดียวให้คุณเพื่อตรวจสอบเฮดเดอร์การตอบกลับของแต่ละคำขอ จำลองการเข้าชมพร้อมกัน และยืนยันได้อย่างแม่นยำว่าคุณกำลังชนขีดจำกัดใด ก่อนที่คุณจะนำโค้ดไปใช้งานจริง ดาวน์โหลด Apidog หากคุณยังไม่มี; ขั้นตอนการทำงานด้านล่างนี้สามารถใช้ได้กับแผนฟรี

button

สี่ขีดจำกัดที่สำคัญจริงๆ

OpenAI ใช้การจำกัดอัตราหลายอย่างกับคีย์ GPT API ทุกคีย์ คุณจะเห็นทั้งสี่ข้อบังคับสำหรับแอปพลิเคชันที่ใช้งานจริงทุกประเภท:

เมื่อคำขอของคุณถูกปฏิเสธ API จะส่งคืน HTTP 429 พร้อมกับบอดี้ JSON ดังนี้:

{
 "error": {
 "message": "Rate limit reached for gpt-5.5 in organization org-abc on tokens per min (TPM): Limit 30000, Used 28432, Requested 3120.",
 "type": "tokens",
 "param": null,
 "code": "rate_limit_exceeded"
 }
}

สังเกตว่าบอดี้จะบอกคุณว่าคุณเกินขีดจำกัดในมิติใด: tokens, requests หรือบางครั้ง tokens_usage_based นี่คือสิ่งแรกที่คุณควรอ่านเมื่อเกิดปัญหา ข้อผิดพลาดจากการเกิน TPM จะดูแตกต่างจากการเกิน RPM และวิธีแก้ไขก็แตกต่างกันด้วย 429 แต่ละครั้งไม่เหมือนกัน

สำหรับข้อมูลอ้างอิงแบบครบวงจรว่า 429 หมายถึงอะไรในระดับ HTTP โปรดดู เอกสาร MDN 429 และ ข้อกำหนด RFC 6585 สำหรับพฤติกรรมเฉพาะของ OpenAI เกี่ยวกับเฮดเดอร์การลองใหม่และการเลื่อนระดับ OpenAI ได้จัดทำ หน้าอัตราการจำกัดอย่างเป็นทางการ ที่คุณควรบุ๊กมาร์กไว้

ระดับชั้นทำงานอย่างไร และทำไมคุณถึงได้รับการเลื่อนขั้น (หรือติดขัด)

คีย์ GPT API ของคุณอยู่ในระดับการใช้งานของ OpenAI ระดับชั้นเหล่านี้กำหนดตัวเลขจริงที่อยู่เบื้องหลังขีดจำกัด RPM และ TPM ของคุณ คุณจะเลื่อนระดับขึ้นอยู่กับสองสิ่ง: ยอดใช้จ่ายทั้งหมดในบัญชีของคุณ และระยะเวลาที่คุณชำระเงินครั้งแรก มีทั้งหมดหกระดับ ตั้งแต่ฟรีไปจนถึงระดับ 5 และรูปแบบคร่าวๆ สำหรับโมเดลข้อความเป็นดังนี้:

ระดับชั้น เกณฑ์การใช้จ่าย เกณฑ์การรอ RPM ข้อความ TPM ข้อความ
ฟรี ไม่มี ไม่มี 3 40k
1 ชำระแล้ว $5 ไม่มี 500 30k–200k ขึ้นอยู่กับโมเดล
2 ชำระแล้ว $50 7 วัน 5,000 450k
3 ชำระแล้ว $100 7 วัน 5,000 1M
4 ชำระแล้ว $250 14 วัน 10,000 2M
5 ชำระแล้ว $1,000 30 วัน 10,000 2M+

ตัวเลขข้างต้นเป็นเพียงตัวอย่างเท่านั้น ขีดจำกัดที่แน่นอนจะเปลี่ยนแปลงไปตามเวลาและแตกต่างกันไปในแต่ละโมเดล โปรดอ่านขีดจำกัดที่คุณใช้งานจริงโดยตรงจากแดชบอร์ด หรือดีกว่านั้นคือจากเฮดเดอร์การตอบกลับ API ของคุณเอง (จะกล่าวถึงด้านล่าง) ก่อนที่คุณจะกำหนดขนาดของเวิร์กโหลด

ผลกระทบในทางปฏิบัติสองประการ:

  1. คุณจะได้รับการเลื่อนระดับโดยอัตโนมัติเมื่อคุณชำระเงิน ระดับชั้นไม่ใช่สิ่งที่ต้องเลือก เมื่อยอดใช้จ่ายของคุณผ่านเกณฑ์ระดับชั้นและระยะเวลารอได้ผ่านพ้นไป คำขอถัดไปที่คุณทำจะทำงานภายใต้ขีดจำกัดใหม่ ไม่มีการแจ้งเตือน ไม่มีขั้นตอนการโยกย้าย
  2. คุณสามารถถูกลดระดับได้ หากบัญชีของคุณไม่ใช้งานเป็นเวลานานหรือวิธีการชำระเงินของคุณล้มเหลว คุณสามารถถูกลดระดับลงได้ โปรดทดสอบในสภาพแวดล้อมการผลิตหลังจากการเปลี่ยนแปลงการเรียกเก็บเงินใดๆ

สำหรับการเปรียบเทียบระบบระดับชั้นของผู้ให้บริการโมเดลอื่นๆ โปรดดู คำอธิบายอัตราการจำกัดของผู้ใช้ OpenAI API, คู่มืออัตราการจำกัด Claude API, และ คู่มืออัตราการจำกัด Grok-3 API แนวคิดพื้นฐานเหมือนกันในทุกผู้ให้บริการ แต่ตัวเลขและมิติเฉพาะนั้นไม่เหมือนกัน

อ่านขีดจำกัดที่คุณใช้งานจริงจากเฮดเดอร์การตอบกลับ

คุณไม่จำเป็นต้องค้นหาผ่านแดชบอร์ดเพื่อดูขีดจำกัดปัจจุบันของคุณ การตอบกลับ GPT API ทุกครั้งจะแสดงข้อมูลเหล่านี้ในเฮดเดอร์ มองหาสี่ข้อนี้:

โดยปกติแล้วจะมี x-ratelimit-reset-requests และ x-ratelimit-reset-tokens ด้วย ซึ่งทั้งสองจะระบุระยะเวลาที่เข้าใจง่ายจนกว่าจะมีการเติมเต็มโควต้า (เช่น 6s, 1m30s)

วิธีที่ชัดเจนที่สุดในการอ่านข้อมูลเหล่านี้คือการส่งคำขอ chat-completion เพียงครั้งเดียว สังเกตเฮดเดอร์ที่ส่งกลับมา และยืนยันว่าคุณอยู่ในระดับชั้นที่คุณคิดว่าเป็น Apidog ทำให้การทำเช่นนั้นเป็นเรื่องง่ายเพียงคลิกเดียว

ขั้นตอนที่ 1: กำหนดค่าคำขอ GPT ใน Apidog

เปิด Apidog สร้างโปรเจกต์ใหม่ และเพิ่มคำขอใหม่เข้าไป

เมธอด: POST URL: https://api.openai.com/v1/chat/completions

ในแท็บ Headers:

คีย์ ค่า
Authorization Bearer {{OPENAI_API_KEY}}
Content-Type application/json

รูปแบบวงเล็บปีกกาคู่ดึงมาจากตัวแปรสภาพแวดล้อมของ Apidog ซึ่งหมายความว่าคีย์ของคุณจะไม่ถูกเก็บไว้ในคำขอเอง ตั้งค่าตัวแปรเพียงครั้งเดียวภายใต้ Environments สลับสภาพแวดล้อมเพื่อเปลี่ยนระหว่างคีย์ส่วนตัวและคีย์ของทีม และส่วนที่เหลือของคอลเลกชันก็จะถูกดึงไปใช้โดยอัตโนมัติ เคล็ดลับเดียวกันนี้ยังใช้ได้กับ ID องค์กรและโปรเจกต์ที่ OpenAI อนุญาตให้คุณรวมไว้สำหรับการระบุแหล่งที่มาของการเรียกเก็บเงิน

ในแท็บ Body เลือก JSON และวาง:

{
 "model": "gpt-5.5",
 "messages": [
 {"role": "user", "content": "ping"}
 ],
 "max_tokens": 10
}

กด Send คุณควรได้รับการตอบกลับที่สมบูรณ์ตามปกติ ตอนนี้คลิกแท็บ Headers ในแผงการตอบกลับและเลื่อนไปที่แถว x-ratelimit-* ตัวเลขสี่ตัวนั้นคือความจริงปัจจุบันของคุณ ถ่ายภาพหน้าจอไว้ สิ่งเหล่านี้คือค่าพื้นฐานที่คุณจะใช้ในการทดสอบ

หากคุณต้องการเรียนรู้การตั้งค่าคำขอ chat-completion อย่างละเอียดเพิ่มเติม คู่มือวิธีทดสอบ ChatGPT API ด้วย Apidog ของเราครอบคลุมการยืนยันตัวตน, สตรีมมิ่ง, และการเรียกใช้เครื่องมือแบบครบวงจร

ขั้นตอนที่ 2: ยืนยันขีดจำกัดด้วยการส่งคำขอแบบฉับพลัน

การอ่านเฮดเดอร์จะบอกคุณถึงขีดจำกัด การส่งคำขอเพียงครั้งเดียวไม่ได้พิสูจน์อะไรเกี่ยวกับพฤติกรรมเมื่อถึงขีดจำกัด หากต้องการยืนยันว่าการจำกัดความเร็วทำงานตามที่เฮดเดอร์ระบุจริง คุณต้องทำการทดสอบแบบส่งคำขอฉับพลันขนาดเล็ก

Apidog มาพร้อมกับ Tests runner ที่สามารถส่งคำขอเดียวกันได้ N ครั้งพร้อมกัน เปิดคำขอที่คุณบันทึกไว้ คลิกดรอปดาวน์ถัดจาก Send และเลือก Run in Test Scenario ตั้งค่า:

เรียกใช้งาน สิ่งที่มีประโยชน์สองประการคือ:

  1. คำขอบางส่วนส่งคืน 429 ก่อนที่การส่งคำขอแบบฉับพลันจะสิ้นสุดลง ดี นั่นเป็นการยืนยันว่าขีดจำกัดจากเฮดเดอร์การตอบกลับและสถานะบัญชีของคุณตรงกัน
  2. ทั้ง 50 คำขอสำเร็จ และเฮดเดอร์แสดง remaining-requests ลดลงตามที่คาดไว้ RPM ของคุณสูงกว่าที่คุณคิด ตรวจสอบแผงการตอบกลับสำหรับค่าที่ถูกต้อง

Tests runner ของ Apidog จะบันทึกการตอบกลับแต่ละครั้ง คุณจึงสามารถจัดเรียงตามรหัสสถานะและดู 429 ทั้งหมดได้ในมุมมองเดียว คลิกที่แถว 429 แล้วอ่านบอดี้ของมัน ฟิลด์ message จะบอกคุณว่าคุณเกินขีดจำกัด RPM, TPM หรือขีดจำกัดรายวัน นั่นคือมิติที่คุณต้องใช้ในการปรับขนาดในโค้ดที่ใช้งานจริงของคุณ

สำหรับข้อมูลเบื้องต้นเกี่ยวกับสิ่งที่คุณควรทำเมื่อเกินขีดจำกัด คู่มือการเกินอัตราการจำกัด จะอธิบายทุกสถานการณ์ 429 ที่คุณมีแนวโน้มจะพบเจอ

ขั้นตอนที่ 3: แยกการเกิน RPM ออกจากการเกิน TPM

การส่งคำขอแบบฉับพลันครั้งแรกด้านบนวัด RPM เนื่องจากแต่ละคำขอมีขนาดเล็ก ในการตรวจสอบ TPM คุณต้องส่งคำขอน้อยลงแต่แต่ละคำขอมีขนาดใหญ่ขึ้น แก้ไขบอดี้คำขอของคุณเพื่อให้ messages มีเพย์โหลดที่ใหญ่ขึ้นมาก:

{
 "model": "gpt-5.5",
 "messages": [
 {"role": "system", "content": "<3,000 โทเค็นของบริบทที่นี่>"},
 {"role": "user", "content": "สรุปข้างต้นเป็นประโยคเดียว"}
 ],
 "max_tokens": 200
}

เรียกใช้สถานการณ์อีกครั้ง ครั้งนี้อาจมี 20 รอบพร้อมกันที่ 5 หากคุณอยู่ใน Tier 1 ที่มีขีดจำกัด TPM 30k คุณจะเกินขีดจำกัดโทเค็นนานก่อนที่จะเกินขีดจำกัดคำขอ

การแยกนี้สำคัญเพราะวิธีแก้ไขนั้นแตกต่างกัน หากปริมาณงานจริงของคุณส่งคำขอขนาดเล็กจำนวนมาก ให้แก้ไข RPM: ใช้คิว, แบทช์ หรือจัดลำดับ หากส่งคำขอขนาดใหญ่จำนวนน้อย ให้แก้ไข TPM: ตัดแต่ง system prompts, แคชบริบทด้วยกลไก prompt_cache หรือแบ่งคำขอ

ขั้นตอนที่ 4: จำลองผู้ใช้พร้อมกัน

การทดสอบแบบส่งคำขอฉับพลันจะวัดขีดจำกัดสูงสุดของคุณเอง การจราจรในระบบจริงดูแตกต่างออกไป: มีผู้ใช้จำนวนมาก, ขนาดคำขอที่แตกต่างกัน, และการส่งคำขอแบบฉับพลันที่เพิ่มเติมจากฐานข้อมูลที่คงที่

ใน Apidog ให้สร้างสถานการณ์ทดสอบที่วนซ้ำผ่านคำขอสามหรือสี่รูปแบบที่แตกต่างกัน (ขนาดเล็ก กลาง ใหญ่) โดยมีการหยุดพักแบบสุ่มระหว่างรอบ Runner รองรับสคริปต์ JavaScript ก่อนและหลังการเรียกใช้คำขอ คุณจึงสามารถ:

เมื่อสถานการณ์เสร็จสิ้น รายงานจะแสดงฮิสโตแกรมของรหัสสถานะ ฮิสโตแกรมนั้นเป็นสิ่งประดิษฐ์ที่มีประโยชน์ที่สุดที่คุณสามารถปักหมุดไว้ใน runbook ได้ ทันทีที่เพื่อนร่วมงานพูดว่า “เราถูกจำกัดอัตราการใช้งานหรือไม่?” คุณก็เรียกใช้งานซ้ำและเปรียบเทียบได้เลย

จะทำอย่างไรเมื่อคุณถูกจำกัดความเร็ว

เมื่อคุณวัดได้แล้วว่าขีดจำกัดอยู่ตรงไหน คุณมีสามทางเลือกที่แท้จริง

หากคุณต้องการอ่านรายละเอียดเพิ่มเติมเกี่ยวกับการแยกความแตกต่างระหว่างการจำกัดความเร็ว (throttling) และการจำกัดอัตรา (rate-limiting) ก่อนที่คุณจะเลือกใช้ throttle vs. rate limit เป็นเส้นทางที่สั้นที่สุดในการทำความเข้าใจคำศัพท์

ข้อผิดพลาด 429 ที่พบบ่อยของ GPT และความหมายของมัน

429 สามประเภทครอบคลุมประมาณ 90% ของกรณีที่เกิดขึ้นจริง

คำถามที่พบบ่อย

button

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API