Claude API Hız Sınırlarına Takıldınız mı? İşte Yapmanız Gerekenler

Yapay zeka destekli uygulamalar dünyasında, Anthropic'in Claude API'si, gelişmiş dil işleme yetenekleri arayan birçok geliştirici için gidilecek bir çözüm haline geldi. Ancak, popüler herhangi bir hizmette olduğu gibi, uygulamanızın işlevselliğini geçici olarak durdurabilen hız sınırlarıyla karşılaşmanız olasıdır. Bu sınırları anlamak ve bunlarla uyumlu çalışmak için stratejiler uygulamak, sorunsuz bir kullanıcı deneyimi sağlamak için çok önemlidir.

AI Kodlama için Claude, hem sıradan kullanıcılar hem de geliştiriciler için güçlü bir yardımcı olarak ortaya çıktı. Ancak, birçok kullanıcı ortak bir hayal kırıklığıyla karşılaşır: hız sınırları.

Kullanıcı Claude'un Kullanım Sınırlarından Şikayet Ediyor

İster Claude'un web arayüzünü kullanıyor olun, ister Cursor veya Cline gibi araçlarla API'sini entegre ediyor olun, bu sınırlara ulaşmak iş akışınızı ve üretkenliğinizi bozabilir. Claude gibi araçlar güçlü yapay zeka yetenekleri sağlarken, API etkileşimlerini etkili bir şekilde yönetmek uygun test ve hata ayıklama araçları gerektirir. Apidog, geliştiricilerin yapay zeka ve diğer API'lerle çalışırken bu karmaşıklıkların üstesinden gelmelerine yardımcı olur.

button

Bu kapsamlı kılavuz, Claude API hız sınırlarının neden var olduğunu, bunlara ne zaman ulaştığınızı nasıl belirleyeceğinizi inceleyecek ve bu zorlukların üstesinden etkili bir şekilde gelmenize yardımcı olacak üç ayrıntılı çözüm sunacaktır.

Claude API'lerinin Hız Sınırları Nelerdir ve Neden Var?

Hız sınırları, bir kullanıcının belirli bir zaman diliminde yapabileceği istek sayısını kontrol etmek için API sağlayıcıları tarafından uygulanan kısıtlamalardır. Anthropic, bu sınırları çeşitli önemli nedenlerle uygular:

Sunucu Kaynak Yönetimi: Herhangi bir kullanıcının çok fazla hesaplama kaynağı tüketmesini engellemek
Adil Erişim: Tüm kullanıcılar arasında API erişiminin adil dağılımını sağlamak
Kötüye Kullanımı Önleme: Kazıma veya DDoS saldırıları gibi kötü niyetli faaliyetlere karşı koruma
Hizmet Kararlılığı: Yoğun kullanım zamanlarında genel sistem performansını korumak

Claude API'lerinin Belirli Hız Sınırları

Claude'un hız sınırları, hesap türünüze göre değişiklik gösterir:

Ücretsiz Kullanıcılar: Yaklaşık olarak günde 100 mesaj, kota gece yarısı sıfırlanır
Pro Kullanıcılar: Ücretsiz kullanıcıların yaklaşık beş katı (yaklaşık günde 500 mesaj)
API Kullanıcıları: Anthropic ile yaptığınız özel planınıza ve anlaşmalarınıza göre özel sınırlar

Ek olarak, yoğun kullanım zamanlarında, bu sınırlar daha sıkı bir şekilde uygulanabilir ve maksimum tahsisinize ulaşmadan önce bile geçici bir daralma yaşayabilirsiniz.

Hız Sınırı Sorunlarını Belirleme

Uygulamanız bir 429 Too Many Requests HTTP durum kodu aldığında muhtemelen bir hız sınırına ulaştınız. Yanıt genellikle şunlarla ilgili bilgiler içeren başlıklar içerir:

Ne zaman istek yapmaya devam edebileceğiniz
Geçerli kullanım istatistikleriniz
Kalan kota bilgileri

Çözüm 1: Kodunuzda Uygun Hız Sınırı Uygulayın

API hız sınırlarını ele almanın en temel yaklaşımı, istemci tarafında hız sınırlaması uygulamaktır. Bu, uygulamanızın izin verilen istek hacmini aşmasını proaktif olarak önler.

Bir Token Bucket Algoritması Kullanma

Token bucket, aşağıdakilerle çalışan, hız sınırlaması için popüler bir algoritmadır:

Sabit bir oranda token'larla dolan bir "bucket" (kova) tutmak
Her API isteği için bir token tüketmek
Hiçbir token mevcut olmadığında istekleri engellemek

İşte bir Python uygulaması:

import time
import threading

class TokenBucket:
    def __init__(self, tokens_per_second, max_tokens):
        self.tokens_per_second = tokens_per_second
        self.max_tokens = max_tokens
        self.tokens = max_tokens
        self.last_refill = time.time()
        self.lock = threading.Lock()
    
    def _refill_tokens(self):
        now = time.time()
        elapsed = now - self.last_refill
        new_tokens = elapsed * self.tokens_per_second
        self.tokens = min(self.max_tokens, self.tokens + new_tokens)
        self.last_refill = now
    
    def get_token(self):
        with self.lock:
            self._refill_tokens()
            if self.tokens >= 1:
                self.tokens -= 1
                return True
            return False
    
    def wait_for_token(self, timeout=None):
        start_time = time.time()
        while True:
            if self.get_token():
                return True
            
            if timeout is not None and time.time() - start_time > timeout:
                return False
                
            time.sleep(0.1)  # Sleep to avoid busy waiting

# Claude API ile örnek kullanım
import anthropic

# Bir hız sınırlayıcı oluşturun (saniyede 5 istek, maksimum 10 patlama)
rate_limiter = TokenBucket(tokens_per_second=5, max_tokens=10)
client = anthropic.Anthropic(api_key="your_api_key")

def generate_with_claude(prompt):
    # Bir token'ın kullanılabilir olmasını bekle
    if not rate_limiter.wait_for_token(timeout=30):
        raise Exception("Hız sınırı token'ı beklenirken zaman aşımı")
    
    try:
        response = client.messages.create(
            model="claude-3-opus-20240229",
            max_tokens=1000,
            messages=[{"role": "user", "content": prompt}]
        )
        return response.content
    except Exception as e:
        if "429" in str(e):
            print("Hız sınırına ulaşıldı, hız sınırlamasına rağmen! Geri çekiliyoruz...")
            time.sleep(10)  # Ek geri çekilme
            return generate_with_claude(prompt)  # Tekrar dene
        raise

Bu uygulama:

Sabit bir oranda yenilenen bir token bucket oluşturur
İstek yapmadan önce token'ların kullanılabilir olmasını bekler
Hız sınırlarıyla hala karşılaşılırsa ek geri çekilme uygular

429 Yanıtlarını Üstel Geri Çekilme ile İşleme

Proaktif hız sınırlaması ile bile, zaman zaman sınırlara ulaşabilirsiniz. Üstel geri çekilme uygulamak, uygulamanızın sorunsuz bir şekilde kurtulmasına yardımcı olur:

import time
import random

def call_claude_api_with_backoff(prompt, max_retries=5, base_delay=1):
    retries = 0
    
    while retries <= max_retries:
        try:
            # Hız sınırlayıcı token'ı bekle
            rate_limiter.wait_for_token()
            
            # API çağrısını yap
            response = client.messages.create(
                model="claude-3-opus-20240229",
                max_tokens=1000,
                messages=[{"role": "user", "content": prompt}]
            )
            return response.content
            
        except Exception as e:
            if "429" in str(e) and retries < max_retries:
                # Üstel geri çekilme ve jitter ile gecikmeyi hesapla
                delay = base_delay * (2 ** retries) + random.uniform(0, 0.5)
                print(f"Hız sınırlaması uygulandı. {delay:.2f} saniye içinde tekrar denenecek...")
                time.sleep(delay)
                retries += 1
            else:
                raise
    
    raise Exception("Maksimum tekrar deneme aşıldı")

Bu işlev:

API çağrısını yapmaya çalışır
429 hatası oluşursa, üstel olarak artan bir süre bekler
İstek senkronizasyonunu önlemek için rastgele jitter ekler
Maksimum sayıda tekrar denemeden sonra vazgeçer

Çözüm 2: İstek Kuyruğu ve Önceliklendirme Uygulayın

Farklı düzeylerde istek önemine sahip uygulamalar için, önceliklendirme ile bir istek kuyruğu uygulamak, API kullanımınızı optimize edebilir.

Bir Öncelik Kuyruğu Sistemi Oluşturma

import heapq
import threading
import time
from dataclasses import dataclass, field
from typing import Any, Callable, Optional

@dataclass(order=True)
class PrioritizedRequest:
    priority: int
    execute_time: float = field(compare=False)
    callback: Callable = field(compare=False)
    args: tuple = field(default_factory=tuple, compare=False)
    kwargs: dict = field(default_factory=dict, compare=False)
    
class ClaudeRequestQueue:
    def __init__(self, requests_per_minute=60):
        self.queue = []
        self.lock = threading.Lock()
        self.processing = False
        self.requests_per_minute = requests_per_minute
        self.interval = 60 / requests_per_minute
        
    def add_request(self, callback, priority=0, delay=0, *args, **kwargs):
        """Verilen öncelikle kuyruğa bir istek ekleyin."""
        with self.lock:
            execute_time = time.time() + delay
            request = PrioritizedRequest(
                priority=-priority,  # Daha yüksek değerlerin daha yüksek önceliğe sahip olması için olumsuzlayın
                execute_time=execute_time,
                callback=callback,
                args=args,
                kwargs=kwargs
            )
            heapq.heappush(self.queue, request)
            
            if not self.processing:
                self.processing = True
                threading.Thread(target=self._process_queue, daemon=True).start()
                
    def _process_queue(self):
        """Kuyruktan istekleri, hız sınırlarına uyarak işleyin."""
        while True:
            with self.lock:
                if not self.queue:
                    self.processing = False
                    return
                
                # Yürütülmeye hazır en yüksek öncelikli isteği alın
                request = self.queue[0]
                now = time.time()
                
                if request.execute_time > now:
                    # İstek hazır olana kadar bekle
                    wait_time = request.execute_time - now
                    time.sleep(wait_time)
                    continue
                
                # İsteği kuyruktan kaldır
                heapq.heappop(self.queue)
            
            # İsteği kilidin dışında yürütün
            try:
                request.callback(*request.args, **request.kwargs)
            except Exception as e:
                print(f"İstek yürütülürken hata: {e}")
                
            # Hız sınırı aralığını bekle
            time.sleep(self.interval)

# Örnek kullanım
queue = ClaudeRequestQueue(requests_per_minute=60)

def process_result(result, callback):
    print(f"Sonuç alındı: {result[:50]}...")
    if callback:
        callback(result)

def make_claude_request(prompt, callback=None, priority=0):
    def execute():
        try:
            response = client.messages.create(
                model="claude-3-opus-20240229",
                max_tokens=1000,
                messages=[{"role": "user", "content": prompt}]
            )
            process_result(response.content, callback)
        except Exception as e:
            if "429" in str(e):
                # Hız sınırlaması uygulanırsa, bir gecikmeyle tekrar kuyruğa alın
                print("Hız sınırlaması uygulandı, tekrar kuyruğa alınıyor...")
                queue.add_request(
                    make_claude_request, 
                    priority=priority-1,  # Tekrar denemeler için daha düşük öncelik
                    delay=10,  # Tekrar denemeden önce 10 saniye bekle
                    prompt=prompt, 
                    callback=callback,
                    priority=priority
                )
            else:
                print(f"Hata: {e}")
    
    queue.add_request(execute, priority=priority)

# Farklı önceliklerle bazı istekler yapın
make_claude_request("Yüksek öncelikli soru", priority=10)
make_claude_request("Orta öncelikli soru", priority=5)
make_claude_request("Düşük öncelikli soru", priority=1)

Bu uygulama:

API istekleri için bir öncelik kuyruğu oluşturur
İstekleri önceliğe ve planlanan yürütme zamanına göre işler
Hız sınırlarının altında kalmak için istekleri otomatik olarak sınırlar
Azalan öncelikle tekrar denemeleri işler

Çözüm 3: İstekleri Birden Fazla Örnek Arasında Dağıtın

Yüksek hacimli uygulamalar için, Claude API isteklerini birden fazla örnek arasında dağıtmak, tek hesap sınırlarının ötesinde ölçeklenmenize yardımcı olabilir.

Birden Fazla API Anahtarı Arasında Yük Dengeleme

import random
import threading
from datetime import datetime, timedelta

class APIKeyManager:
    def __init__(self, api_keys, requests_per_day_per_key):
        self.api_keys = {}
        self.lock = threading.Lock()
        
        # Her API anahtarının kullanımını izlemeyi başlat
        for key in api_keys:
            self.api_keys[key] = {
                'key': key,
                'daily_limit': requests_per_day_per_key,
                'used_today': 0,
                'last_reset': datetime.now().date(),
                'available': True
            }
    
    def _reset_daily_counters(self):
        """Yeni bir günse günlük sayaçları sıfırla."""
        today = datetime.now().date()
        for key_info in self.api_keys.values():
            if key_info['last_reset'] < today:
                key_info['used_today'] = 0
                key_info['last_reset'] = today
                key_info['available'] = True
    
    def get_available_key(self):
        """Günlük sınırını aşmamış, kullanılabilir bir API anahtarı al."""
        with self.lock:
            self._reset_daily_counters()
            
            available_keys = [
                key_info for key_info in self.api_keys.values()
                if key_info['available'] and key_info['used_today'] < key_info['daily_limit']
            ]
            
            if not available_keys:
                return None
            
            # Bugün en az istek kullanılmış bir anahtar seçin
            selected_key = min(available_keys, key=lambda k: k['used_today'])
            selected_key['used_today'] += 1
            
            # Anahtar sınırına ulaşmışsa, kullanılamaz olarak işaretle
            if selected_key['used_today'] >= selected_key['daily_limit']:
                selected_key['available'] = False
                
            return selected_key['key']
    
    def mark_key_used(self, api_key):
        """Bu anahtarla bir istek yapıldığını işaretle."""
        with self.lock:
            if api_key in self.api_keys:
                self.api_keys[api_key]['used_today'] += 1
                
                if self.api_keys[api_key]['used_today'] >= self.api_keys[api_key]['daily_limit']:
                    self.api_keys[api_key]['available'] = False
    
    def mark_key_rate_limited(self, api_key, retry_after=60):
        """Bir anahtarı hız sınırlaması nedeniyle geçici olarak kullanılamaz olarak işaretle."""
        with self.lock:
            if api_key in self.api_keys:
                self.api_keys[api_key]['available'] = False
                
                # Yeniden deneme süresinden sonra anahtarı tekrar kullanılabilir olarak işaretlemek için bir zamanlayıcı başlat
                def make_available_again():
                    with self.lock:
                        if api_key in self.api_keys:
                            self.api_keys[api_key]['available'] = True
                
                timer = threading.Timer(retry_after, make_available_again)
                timer.daemon = True
                timer.start()

# Örnek kullanım
api_keys = [
    "key1_abc123",
    "key2_def456",
    "key3_ghi789"
]

key_manager = APIKeyManager(api_keys, requests_per_day_per_key=100)

def call_claude_api_distributed(prompt):
    api_key = key_manager.get_available_key()
    
    if not api_key:
        raise Exception("Kullanılabilir API anahtarı yok - hepsi günlük sınırlarına ulaştı")
    
    client = anthropic.Anthropic(api_key=api_key)
    
    try:
        response = client.messages.create(
            model="claude-3-opus-20240229",
            max_tokens=1000,
            messages=[{"role": "user", "content": prompt}]
        )
        return response.content
    except Exception as e:
        if "429" in str(e):
            # Mümkünse retry-after başlığını ayrıştırın, aksi takdirde varsayılanı kullanın
            retry_after = 60  # Varsayılan
            key_manager.mark_key_rate_limited(api_key, retry_after)
            
            # Farklı bir anahtarla tekrar özyinelemeli olarak deneyin
            return call_claude_api_distributed(prompt)
        else:
            raise

Bu yaklaşım:

Birden fazla API anahtarını yönetir ve kullanımlarını izler
İstekleri, anahtar başına hız sınırlarının altında kalmak için dağıtır
Hız sınırı yanıtlarını, etkilenen anahtarları rotasyondan geçici olarak kaldırarak işler
Kullanım sayaçlarını günlük olarak otomatik olarak sıfırlar

Claude API Hız Sınırlarını Yönetmek İçin En İyi Uygulamalar

Yukarıdaki üç çözüme ek olarak, işte bazı ek en iyi uygulamalar:

Kullanımınızı Proaktif Olarak İzleyin

API kullanımınızı izlemek için panolar uygulayın
Hız sınırlarına yaklaştığınızda uyarılar ayarlayın
Optimizasyon fırsatlarını belirlemek için kullanım kalıplarını düzenli olarak inceleyin

Zarif Bozulma Uygulayın

Hız sınırlaması uygulandığında alternatif yanıtlar sağlamak için uygulamanızı tasarlayın
Benzer sorgular için önceki yanıtları önbelleğe almayı düşünün
Hız sınırları yaşanırken kullanıcılara şeffaf geri bildirim sağlayın

İstemlerinizi Optimize Edin

Daha etkili istemler oluşturarak gereksiz API çağrılarını azaltın
Mümkün olduğunda ilgili sorguları tek isteklere birleştirin
Açıklama isteklerine olan ihtiyacı ortadan kaldırmak için girdileri önceden işleyin

Anthropic ile İletişim Kurun

Üretim uygulamaları için, daha yüksek katmanlı planlara yükseltmeyi düşünün
Belirli kullanım durumunuz için özel hız sınırları hakkında Anthropic ile iletişime geçin
Platform güncellemeleri ve hız sınırlama politikalarındaki değişiklikler hakkında bilgi sahibi olun

Sonuç

Hız sınırları, Claude gibi güçlü herhangi bir API ile çalışmanın kaçınılmaz bir parçasıdır. Bu makalede özetlenen çözümleri uygulayarak—uygun hız sınırlama kodu, istek kuyruğu ve dağıtılmış istek işleme—bu sınırlamaları zarif bir şekilde ele alan sağlam uygulamalar oluşturabilirsiniz.

Hız sınırlarının, tüm kullanıcılar için adil erişim ve sistem kararlılığı sağlamak için var olduğunu unutmayın. Bu kısıtlamalar dahilinde çalışmak yalnızca uygulamanızın güvenilirliğini artırmakla kalmaz, aynı zamanda ekosistemin genel sağlığına da katkıda bulunur.

Bu stratejilerin dikkatli bir şekilde planlanması ve uygulanmasıyla, kullanıcılarınız için sorunsuz bir deneyim sürdürürken, uygulamanız ölçeklenirken bile Claude'un güçlü yapay zeka yeteneklerinden en iyi şekilde yararlanabilirsiniz.