CLI ile Aracı Token Maliyetlerini Düşürme (2026 Rehberi)

Bir CLI kodlama ajanı, faturası gelene kadar kendini özgür hisseder. Claude Code veya Codex'i bir depoya yönlendirir, bir modülü yeniden düzenlemesini istersiniz ve on dakika sonra kırk dosyayı okumuş, test paketini üç kez çalıştırmış ve görmesini asla istemediğiniz bir bağlam için altı haneli token harcamış olur. Bunu gün boyu ajan çalıştıran sekiz mühendisten oluşan bir ekiple çarptığınızda, fatura bir yuvarlama hatası olmaktan çıkar. Kodlama ajanları için token harcaması çoğunlukla israftır ve bu israfın çoğu, modelleri değiştirmeden veya daha kötü çıktı kabul etmeden komut satırından düzeltilebilir.

TL;DR

Model'e ulaşmadan önce bağlamı kısaltarak ajan token maliyetlerini düşürün: çalışma kümesini sınırlayın, bellek dosyalarını kısa tutun ve uzun oturumları sıkıştırın. Kararlı ön ekler için istem önbelleğini açın (tekrarlanan okumalarda yaklaşık %90 indirim). Ucuz alt görevleri küçük bir modele yönlendirin. Araç çıktısını sınırlayın. Gerçekte neyin değiştiğini bilmek için her çalıştırmanın maliyetini ölçün.

Giriş

Sorun iki şekilde ortaya çıkar. Ya bir haftalık veya oturum limitini aştığınız için görev ortasında aşılmaz bir duvara çarparsınız ya da aylık API faturası gelir ve birisi 'yapay zeka asistanının' neden genç bir müteahhitten daha pahalıya mal olduğunu sorar. Her ikisi de aynı temel nedenden kaynaklanır: CLI ajanları varsayılan olarak token açlığı çekerler. On satıra ihtiyaç duyduklarında tüm dosyaları okurlar, her dönüşte tüm konuşmayı yeniden oynatırlar, ham komut çıktılarını bağlama geri dökerler ve aynı sistem istemi ve depo haritasını günde binlerce kez yeniden gönderirler.

Bunların hiçbiri işin doğasında yoktur. Gerçekten 2.000 token kod hakkında akıl yürütmesi gereken bir yeniden düzenleme, bunu yapmak için 180.000 token bağlama ihtiyaç duymaz. Bu iki sayı arasındaki fark sizin tasarrufunuzdur ve neredeyse tamamı, bugün benimseyebileceğiniz bayraklar, yapılandırma dosyaları ve alışkanlıklarla geri kazanılabilir.

Bu kılavuz, token'ların bir CLI ajan çalışmasında gerçekte nereye gittiğini ele alır, ardından her bir kategoriyi azaltmak için somut taktikler sunar: bağlam hijyeni ve bellek dosyaları, istem önbellekleme, model yönlendirme, araç çıktısını ve alımını kısaltma ve tasarrufların gerçek olup bir tahminden ibaret olmadığını anlamanız için her çalıştırmanın maliyetini ölçme. Örnekler Claude Code ve Codex'i varsayar, ancak mekanikler token tabanlı API'lerle iletişim kuran herhangi bir ajan için geçerlidir.

Erkenden adını anmaya değer bir ek maliyet: ajan token harcamalarının çoğu hata ayıklamadır. Güvenilmez bir dahili API'yi çağıran bir ajan, her yinelemede token'lar için tam ücret ödeyerek yeniden dener, hata gövdelerini okur, belgeleri yeniden okur ve döngüye girer.

💡

Ajanlarınız API'lerle etkileşime giriyorsa, bu API'leri bir ajana yönlendirmeden önce Apidog'da tasarlanmış, sahte verilerle test edilmiş ve denenmiş olması, pahalı deneme-yanılma kategorisini tamamen ortadan kaldırır. Ajan, sürprizlerle dolu canlı bir uç nokta yerine, beklendiği gibi davranan bir sözleşmeye karşı çalışır. Buna kullanım durumlarında geri döneceğiz.

button

CLI Ajan Çalışmasında Token'lar Gerçekte Nereye Gider?

Optimizasyon yapmadan önce, faturanın zihinsel bir modeline ihtiyacınız var. Tek bir ajan 'dönüşü', modele bir giriş yükü gönderir ve bir çıktı yükü geri alır. Her ikisi için de ödeme yaparsınız ve çoğu sağlayıcıda çıktı, token başına girişten üç ila altı kat daha pahalıya mal olur. 2026 ortalarında bir öncü model ailesi için, giriş milyon token başına yaklaşık 3 dolar, çıktı ise yaklaşık 15 dolar civarındadır; aynı ailedeki daha ucuz bir modelin girişi yaklaşık 1 dolar, çıktısı ise 5 dolardır. Bunları birer örnek olarak değerlendirin, fiyat teklifi olarak değil; sağlayıcılar fiyatları güncellediği için canlı fiyatlandırma sayfalarını kontrol edin. Tam sayılardan bağımsız olarak yapısal nokta geçerlidir: çıktı pahalıdır ve giriş hacmi şişen şeydir.

Tipik bir çalıştırmada giriş yükünü dolduranlar şunlardır:

Sistem istemi ve araç tanımlamaları. Ajanın talimatları ve her aracın JSON şeması. Her dönüşte sabit, genellikle 5.000 ila 15.000 token, her tek dönüşte yeniden gönderilir.
Bellek ve proje dosyaları. `CLAUDE.md` gibi şeyler, depo kuralları ve kalıcı talimatlar. İlgili olsun ya da olmasın her dönüşte yüklenir.
Konuşma geçmişi. Her önceki kullanıcı mesajı, model yanıtı, araç çağrısı ve araç sonucu, her dönüşte tam olarak yeniden oynatılır. Bu sınırsız büyür ve genellikle uzun bir oturumdaki en büyük kalemdir.
Alınan dosya içeriği. Ajanın okuduğu dosyalar. 1.200 satırlık bir dosyada tek bir `Oku` işlemi yaklaşık 12.000 ila 18.000 token demektir ve ajanlar tüm dosyaları okumayı sever.
Araç çıktısı. Test çalıştırıcı günlükleri, `npm install` gürültüsü, oluşturulan bir kilit dosyasının `git diff` çıktısı, yığın izleri. Varsayılan olarak ham ve ayrıntılıdır.

Çıktı yükü, modelin muhakemesi, kod düzenlemeleri ve açıklamalarıdır. Çoğu çalıştırmada girişten daha küçüktür, ancak token başına en yüksek fiyatlandırılır, bu nedenle ayrıntılı 'altı paragrafta planımı açıklayayım' davranışı maliyetlidir.

En önemli tek gerçek: konuşma geçmişi her dönüşte yeniden oynatılır. 30 dönüşlük bir oturum, tek bir dönüşün 30 katına mal olmaz. Büyüyen bir ön ekin toplamına daha yakındır, bu nedenle sonraki her dönüş, kendinden önceki her şeyin tüm ağırlığını taşır. Bu yüzden uzun, dolambaçlı bir oturum yapabileceğiniz en pahalı şeydir ve aşağıdaki taktiklerin, yeniden gönderilen bağlamı orantısız bir şekilde hedeflemesinin nedeni budur.

Oturum ve limit muhasebesinin pratikte nasıl işlediğini daha derinlemesine incelemek isterseniz, Claude Code token penceresinin nasıl sıfırlandığına dair açıklama bu bölüm için faydalı bir tamamlayıcıdır; 'kısa hissettiren' bir oturumun neden yine de bir bütçeyi tüketebileceğini açıklar.

Bağlam Hijyeni ve Bellek Dosyaları

En ucuz token, hiç göndermediğiniz tokendir. Bağlam hijyeni en yüksek etkiye sahip alışkanlıktır çünkü oturumun geri kalanında her dönüşte giriş yükünü küçültür.

Başlamadan önce çalışma kümesini sınırlayın. Bir ajanı depo kökünde açıp 'fatura mantığını yeniden düzenle' demeyin. Her yere yayılır. Bunun yerine, hangi dosyaların önemli olduğunu tam olarak söyleyin:

# Geniş keşfe yol açan belirsiz bir istem yerine:
claude "src/payments/retry.ts ve test dosyasında üstel geri çekilmeyi kullanacak şekilde yeniden deneme mantığını yeniden düzenle"

Dosyaları adlandırmak, ajanın önemli olan iki taneyi bulmak için yirmi adayı okumasını engeller. Keşfetmesine izin vermeniz gerekiyorsa, onu kök yerine bir dizine yönlendirin.

Bellek dosyalarını kısa ve kararlı tutun. Bir `CLAUDE.md` (veya eşdeğer proje bellek dosyası) her dönüşte bağlama yüklenir. Ekipler bunu bir wiki gibi kullanır ve 4.000 token'lık tanıtım metinlerine kadar büyümesine izin verir. Örneğin, 8 mühendis arasında günde 50 dönüşte, şişmiş bir bellek dosyası, marjinal fayda sağlamadan günde yüzlerce kez yeniden gönderilir. Denetleyin:

# Bellek dosyanızda yaklaşık token kontrolü (karakter / 4 iyi bir tahmindir):
wc -c CLAUDE.md | awk '{print "≈", int($1/4), "token/dönüş"}'

Sıkı bir dosya hedefleyin: derleme/test komutları, katı kurallar ve daha derin belgelerin nerede yaşadığına dair işaretler, belgelerin kendisi değil. Bir bölüm ayda yalnızca bir görevle ilgiliyse, her zaman yüklenen dosyaya ait değildir. Onu ajanın talep üzerine okuduğu bir belgeye taşıyın.

Uzun oturumları sıkıştırın veya sıfırlayın. Bir oturum işini tamamladığında ve alakasız bir göreve geçtiğinizde, aynı bağlama yazmaya devam etmeyin. Her yeni dönüş artık tüm eski metni sürükleyecektir. Ajanın sıkıştırma veya temizleme komutunu kullanın:

# Claude Code'da, konuşma uzadığında:
/compact     # geçmişi kısa bir özete dönüştürür, ham metni bırakır
# veya, yeni bir görevde temiz bir başlangıç için:
/clear       # sıfırdan başlar; eski bağlam artık yeniden gönderilmez

/compact tipik olarak on binlerce token ham geçmişi, boyutunun onda biri kadar bir özetle değiştirir ve bu daha küçük ön ek, sonraki her dönüşün taşıdığı şey olur. Disiplin basittir: oturum başına bir mantıksal görev, görevler arasında sıkıştırma veya temizleme. Claude Code iş akışlarındaki iş akışı desenleri bu kapsam belirleme alışkanlığına büyük ölçüde dayanır ve toptan benimsenmeye değerdir.

Bir proje yoksayma dosyası kullanın. Oluşturulan yapıtları, kilit dosyalarını, derleme çıktılarını ve tedarikçi bağımlılıklarını ajanın erişiminden uzak tutun. Ajan `dist/` veya `node_modules/` klasörlerini asla görmezse, onları okumak veya farklarını almak için token harcamaz. Çoğu ajan bir yoksayma dosyasına saygı duyar; bir kez yapılandırın ve tasarruflar kalıcı olsun.

İstem Önbellekleme: Aynı Ön Ek İçin Tam Fiyat Ödemeyi Bırakın

Bu, tekrarlanan çalıştırmalar için en büyük tek kaldıraçtır ve davranışsal olmaktan ziyade mekaniktir. İstem önbellekleme, sağlayıcının isteğinizin bir ön ekini (araçlar, sistem istemi, kararlı bağlam) depolamasına olanak tanır, böylece bu ön eki paylaşan sonraki istekler, onu yeniden işlemek yerine büyük bir indirimle geri okur.

Anthropic'in istem önbellekleme belgelerine göre ekonomisi: bir önbellek yazma işlemi normal bir giriş tokenından daha pahalıya mal olur (varsayılan 5 dakikalık önbellek için temel girişin yaklaşık 1,25 katı, 1 saatlik önbellek için yaklaşık 2 katı), ancak bir önbellek okuma işlemi temel girişin yaklaşık 0,1 katına mal olur; bu da önbelleğe alınan kısımda yaklaşık %90 indirim demektir. Yazma primi küçük ve okuma indirimi büyük olduğu için, kısa ömürlü önbellekte tek bir önbellek isabetinden sonra ve uzun ömürlü olanda yaklaşık iki isabetten sonra önbellekleme kendini amorti eder. Varsayılan önbellek ömrü kısadır (yaklaşık 5 dakika, her isabet edildiğinde yenilenir), 1 saatlik bir seçenek de mevcuttur. Önbelleğe alınabilir minimum bir boyut vardır; küçük modellerin ve en büyük modellerin, bir ön ekin uygun hale gelmesi için birkaç bin tokene ihtiyacı vardır, bu nedenle önbellekleme tam da önemli olduğu yerde en çok yardımcı olur: büyük kararlı ön ekler.

Yapısal kural, kararlı içeriği önce, değişken içeriği en sona koymak ve sonra sınırı önbelleğe almaktır. Sıra araçlar → sistem → mesajlar şeklindedir ve herhangi bir şeyi değiştirmek o seviyeyi ve ondan sonraki her şeyi geçersiz kılar. Bu yüzden zaman damgalarının, kullanıcının gelen mesajının ve yeni alınan dosya içeriğinin önbellek kesme noktanızdan sonra gelmesini, ondan önce gelmemesini istersiniz.

# Kararlı ön eki önbelleğe alın (sistem + araç tanımlamaları + depo kuralları).
# Değişken kullanıcı dönüşü sonra gelir ve önbelleğe alınan ön ekin parçası DEĞİLDİR.
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    system=[
        {
            "type": "text",
            "text": SYSTEM_PROMPT + REPO_CONVENTIONS,   # çalışma süresi boyunca kararlı
            "cache_control": {"type": "ephemeral"},       # önbellek kesme noktası burada
        }
    ],
    messages=[{"role": "user", "content": user_task}],     # her çalıştırmada değişir
)

# Gerçekte neyin önbelleğe alındığını inceleyin:
u = response.usage
print("önbellek yazma:", u.cache_creation_input_tokens)
print("önbellek okuma :", u.cache_read_input_tokens)   # bu token'lar ~%10 oranında faturalandırılır
print("yeni giriş:", u.input_tokens)

Günde 60 çağrı boyunca aynı sistem istemini ve aynı 8.000 token'lık depo kuralı bloğunu çalıştıran günlük bir yeniden düzenleme ajanı, ders kitabı örneğidir. Önbellekleme olmadan, bu 8.000 token'lık blok için 60 kez tam giriş fiyatı ödersiniz. Önbellekleme ile, yazma primini bir kez (veya önbellek sona erme başına bir kez) ve diğer zamanlarda ~%10 okuma fiyatını ödersiniz. Yalnızca kural bloğunda bu, yaklaşık %90'lık bir azalmadır ve buradaki diğer her taktikle birleşir.

İki operasyonel not. Birincisi, ön ekinizi bayt kararlı tutun; kesme noktasından önceki tek bir değişen karakter önbelleği bozar ve tekrar bir yazma ücreti ödersiniz. Sistem isteminizi ve kurallarınızı sabitleyin; onlara bir zaman damgası eklemeyin. İkincisi, önbellek varsayılan olarak kısa ömürlüdür, bu nedenle ilgili çalıştırmaları gün içine yaymak yerine yakın aralıklarla toplu halde yapmak, sıcak bir önbelleğe isabet etmenizi sağlar. OpenAI'nin API'si, desteklenen modellerde önbelleğe alınmış girişe benzer bir indirim otomatik olarak uygular; prensip, ayarlar farklı olsa bile aynıdır. Codex aracılığıyla GPT-5.5'i ücretsiz çalıştırmadaki ücretsiz katman ve yönlendirme numaraları, yalnızca önbellekleme yeterli olmadığında faydalı bir tamamlayıcıdır.

Model Yönlendirme: Ucuz İş İçin Ucuz Model

Her ajan eylemi bir öncü modele ihtiyaç duymaz. Üç dosyada bir değişkeni yeniden adlandırmak, bir commit mesajı yazmak, bir farkı özetlemek veya şablon bir test oluşturmak, bir mimari tasarlayan aynı modeli gerektirmez. Ancak çoğu CLI ajanının varsayılan davranışı, tüm oturum boyunca her şeyi tek bir pahalı model üzerinden çalıştırmaktır.

Yönlendirme, düşük riskli alt görevleri kasıtlı olarak daha küçük, daha ucuz bir modele göndermek ve pahalı olanı gerçek muhakeme için saklamak anlamına gelir. Fiyat farkı büyüktür: belirli bir ailedeki küçük bir model, token başına amiral gemisi modelinden üç ila beş kat daha ucuz olabilir ve mekanik görevler için çıktı kalitesi farkı ihmal edilebilir düzeydedir.

CLI'dan yönlendirmenin pratik yolları:

# 1. Göreve göre her çağrıda modeli seçin.
claude --model haiku   "evreye alınmış fark için geleneksel bir commit mesajı yazın"
claude --model sonnet  "ödeme hizmeti için önbellekleme katmanını yeniden tasarlayın"

# 2. Yüksek frekanslı, düşük riskli döngü için ucuz bir model kullanın
#    (commit mesajları, değişiklik günlüğü girdileri, hızlı lint açıklamaları)
#    ve yalnızca zor görevi açıkça çağırdığınızda güçlü bir model kullanın.

Varsayılanı daha ucuz modele ayarlayın ve pahalı modele varsayılan yapıp asla düşürmek yerine bilinçli olarak ölçeklendirin. Çoğu ekibin kutupları terstir: 'güvende olmak için' her şeyi amiral gemisi modelinden çalıştırırlar ve commit mesajları için beş kat fazla öderler.

İkinci bir yönlendirme ekseni alt-ajanlardır. Eğer ajan çerçeveniz dar bir alt görevi bir alt ajana devretmeyi destekliyorsa, o alt ajana ucuz bir model ve küçük bir bağlam verin. Alt ajan, angarya işleri (arama, özetleme, taslak oluşturma) kuruşlara yapar ve pahalı üst ajanın tam bağlamla ve tam fiyata kendisinin angarya işi yapması yerine kısa bir sonuç raporlar. Codex ve Claude Code'daki hedef komut içindeki otonom döngü desenleri, pahalı modelin yalnızca damıtılmış sonuçları göreceği şekilde bu yetki devrini nasıl yapılandıracağınızı gösterir.

Sadece dolarlar değil, limitler hakkında bir not. Eğer saf kullandıkça ödeme yerine kullanıma sınırlı bir plandaysanız, yönlendirme aynı zamanda hakkınızın ne kadar uzandığını da artırır. Premium model bütçenizi commit mesajlarına harcamak, ekiplerin Perşembe gününe kadar bir duvara çarpmasının nedenidir. Yakın zamanda gerçekleşen Claude Code haftalık limit artışı yardımcı olur, ancak yönlendirme hala tahsisatın uzun süre dayanmasını sağlayan şeydir.

Araç Çıktısını ve Alımını Kısaltma

Araç çıktısı, bakana kadar görünmez olduğu için sessiz bütçe katilidir. Bir ajanın çalıştırdığı her komut metin döndürür ve bu metin doğrudan bağlama geri döner, sonraki her dönüşte yeniden oynatılır. Tek bir npm install binlerce satır döndürebilir. Ayrıntılı günlük kaydıyla yapılan bir test çalıştırması on binlerce token döndürebilir. Yeniden oluşturulmuş bir kilit dosyasını içeren bir git diff muazzam olabilir. Ajanın nadiren tamamına ihtiyacı vardır; geçme/başarısızlık durumuna ve ilgili hataya ihtiyacı vardır.

Bunu temiz bir şekilde kesen taktikler:

Komutları kaynakta sessizleştirin. Ajan, komutun yazdırdığı her şey için ödeme yapar. Araçları kısa olacak şekilde yapılandırın:

# Gürültülü (ajan her satır için öder):
npm test

# Sessiz (sadece hatalar ve bir özet geri gelir):
npm test --silent -- --reporter=dot

# Gürültülü:
npm install

# Sessiz:
npm install --silent --no-audit --no-fund

Ajan görmeden önce filtreleyin. Ajanın çalıştırdığı komutu kontrol ettiğinizde, gürültüyü dışarı akıtın, böylece yalnızca sinyal geri döner:

# Sadece önemli satırlar bağlama geri gelir:
pytest -q 2>&1 | tail -n 30

# 4.000 satırlık tam fark yerine fark istatistikleri:
git diff --stat

# Tüm günlüğü boşaltmak yerine hatayı grep ile arayın:
npm test 2>&1 | grep -E "(FAIL|✗|Error)" | head -n 20

Tüm dosya okumaları yerine hedeflenmiş okumaları tercih edin. Bir işlevi değiştirmek için 1.500 satırlık bir dosyayı okumak tamamen israftır. Ajanı, sembolü grep ile arayıp etrafındaki bir pencereyi okumaya teşvik edin, tüm dosyayı değil. Birçok ajan, istem onları dürttüğünde bunu yapar ('tüm dosyayı değil, yalnızca yeniden denemeleri işleyen işlevi bul ve oku'). Büyük bir dosyada bu, ~18.000 token ile ~800 arasındaki farktır.

Alım kapsamını kısıtlayın. Ajanınız kod tabanı araması yapıyor veya belgeler üzerinde RAG kullanıyorsa, ne kadar öbek çektiğini ve bunların ne kadar büyük olduğunu sınırlayın. Soruyu yanıtlayan on adet 200 token'lık kısa parça, soruyu gömen elli adet 800 token'lık kısa parçayı yener; model onu kullansa da kullanmasa da alınan her token için ödeme yaparsınız.

Bu değişiklikler çoğunlukla tek seferlik yapılandırmalardır (test raporlayıcılar, kurulum bayrakları, bir yoksayma dosyası) ve her çalıştırmada sonsuza dek fayda sağlarlar, bu da onları bu listedeki çaba karşılığı en iyi getirilerden bazıları yapar.

Her Çalıştırma Başına Maliyeti Ölçme ve Atfetme

Ölçmediğiniz şeyi yönetemezsiniz ve 'fatura düştü' bir ölçüm değildir. Bir taktiğin işe yarayıp yaramadığını bilmek için, bir çalıştırmaya, ideal olarak bir göreve atfedilen maliyete ihtiyacınız vardır.

API'nin size zaten verdiği verilerle başlayın. Her yanıt bir kullanım nesnesi içerir. Yakalayın:

u = response.usage
# Dolar cinsinden yaklaşık maliyet; modeliniz için canlı oranları yerine koyun.
INPUT_RATE  = 3.00 / 1_000_000     # temel giriş $/token (örnekleyici)
OUTPUT_RATE = 15.00 / 1_000_000    # çıktı $/token (örnekleyici)
CACHE_READ  = 0.30 / 1_000_000     # temel girişin yaklaşık %10'u
CACHE_WRITE = 3.75 / 1_000_000     # temel girişin yaklaşık 1.25 katı (5 dakikalık önbellek)

cost = (
    u.input_tokens          * INPUT_RATE  +
    u.output_tokens         * OUTPUT_RATE +
    u.cache_read_input_tokens  * CACHE_READ +
    u.cache_creation_input_tokens * CACHE_WRITE
)
print(f"çalıştırma maliyeti ≈ ${cost:.4f}  "
      f"(girdi={u.input_tokens} çıktı={u.output_tokens} "
      f"önbellek okuma={u.cache_read_input_tokens})")

Kendi sarmalayıcınız yerine ajan CLI'sını kullanıyorsanız, üç yaklaşım işe yarar:

# 1. Çoğu ajan CLI'si oturum için bir kullanım/maliyet komutu sunar.
#    Temsilci bir görevden sonra kontrol edin ve sayıyı not alın.
claude /cost

# 2. Sağlayıcı konsolları, API anahtarı başına harcamayı raporlar. Harcamanın izlenemez bir toplamda birikmesi yerine,
#    ajan başına veya proje başına özel bir API anahtarı verin, böylece harcama atfedilebilir olur.

# 3. Çalıştırmaları etiketleyin. Ajan çağrısını, zaman damgası, görev etiketi ve raporlanan token sayılarını bir CSV'ye kaydeden bir betik içine alın.
#    Bir haftalık bu CSV, hangi görevlerin pahalı olduğunu size söyleyecektir.

Büyük herhangi bir şey çalıştırmadan önce tahmin edin. İstemini ve dahil etmeyi düşündüğünüz dosyaları bir tokenlaştırıcıya yapıştırın (OpenAI'nin genel tokenlaştırıcısı boyutu hızlıca kontrol etmek için iyi bir yoldur) ve sayıma bakın. Eğer 'tüm modülü dahil et' 90.000 token ise ve hedeflenen sürüm 6.000 ise, bu kararı ödeme yapmadan önce görmüş oldunuz.

Zamanla temsilci görev başına bir sayıyı takip edin: 'günlük yeniden düzenleme çalıştırması' başına maliyet, 'PR inceleme çalıştırması' başına maliyet. Önbelleklemeyi açtığınızda veya bir alt görevi ucuz bir modele geçirdiğinizde, bu sayı değişmelidir. Değişmezse, taktik düşündüğünüz gibi çalışmıyor demektir ve bunu bir aylık faturalar yerine tek bir çalıştırmanın maliyetine öğrenmiş olursunuz.

Taktik Karşılaştırması

Taktik	Tipik token tasarrufu	Çaba
Çalışma kümesini sınırlayın (dosyaları adlandırın, tarama yapmayın)	Çalıştırma başına girdide %30–60	Düşük
Kısa, kararlı bellek dosyası	Dönüş başına, her dönüşte %5–15	Düşük
Görevler arasında `/compact` veya `/clear`	Uzun oturumlarda %40–80	Düşük
Kararlı ön ek üzerinde istem önbellekleme	Önbelleğe alınan ön ekte ~%90	Orta
Model yönlendirme (ucuz iş için ucuz model)	Yönlendirilen alt görevlerde %50–80	Orta
Sessiz/filtrelenmiş araç çıktısı	Araç yoğun çalıştırmalarda %20–50	Düşük (tek seferlik)
Tüm dosya okumaları yerine hedeflenmiş okumalar	Büyük dosya düzenlemelerinde %70–95	Düşük
Kısıtlı alım kapsamı	RAG yoğun ajanlarda %30–60	Orta
Çalıştırma başına maliyet ölçümü	Doğrudan %0; yukarıdakilerin hepsini etkinleştirir	Düşük

Tasarruf aralıkları örnekleyicidir ve çarpan olarak birikir; herhangi bir taktikteki kazanç, temel israfınıza bağlıdır.

Sonuç

Ajan token maliyetleri çoğunlukla kendi kendine zarar vericidir ve bunları düzelteceğiniz yer komut satırıdır. İsraf, yeniden gönderdiğiniz bağlamda, okumadığınız çıktıda ve eldeki görev için çok pahalı olan modellerde yatar. Bunları ele alın ve işin kalitesine dokunmadan fatura düşer.

Önce az çaba gerektiren öğeleri yapın; kapsam belirleme, sessiz çıktı ve yalın bir bellek dosyası hiçbir şeye mal olmaz ve bundan sonra her çalıştırmada fayda sağlar. Üzerine önbellekleme ve yönlendirme ekleyin ve fark bütçenize koyabileceğiniz türden olacaktır.