OpenAI'nin Yapay Zeka Aracı Araçları Nasıl Kullanılır (Geliştirici API Eğitimi)

Muhtemelen OpenAI'ın en son yeniliklerini, aracı oluşturmak için kullandıkları yeni araçlarını duydunuz. OpenAI API tarafından desteklenen bu araçlar, geliştiricilerin akıllı, duyarlı sistemler oluşturma biçiminde devrim yaratıyor. İster deneyimli bir kodlayıcı olun, ister yeni başlıyor olun, bu blog yazısı, kendi aracılarınızı oluşturmak için OpenAI'ın sunduklarından yararlanma hakkında bilmeniz gereken her şeyi size adım adım anlatacak.

💡

Ve konuya girmeden önce, size hızlı bir uyarıda bulunayım: API geliştirme deneyiminizi güçlendirmek istiyorsanız, bugün Apidog'u ücretsiz indirin; OpenAI'ınkiler gibi API'lerle çalışmanızı kolaylaştıran harika bir araç!

button

Neden OpenAI'ın Aracı Oluşturmaya Yönelik Yeni Araçları Oyunun Kurallarını Değiştiriyor?

OpenAI, web arama yeteneklerinin OpenAI API'sine entegre edildiğini duyurdu. Bu güncelleme, ChatGPT aramasının arkasındaki aynı model tarafından desteklenen, ilgili web kaynaklarına bağlantılarla birlikte hızlı, güncel yanıtlar sunuyor. Karmaşık görevleri yerine getirebilen, gerçek zamanlı verileri alabilen ve kullanıcılarla sorunsuz bir şekilde etkileşim kurabilen yapay zeka asistanları gibi aracı sistemler oluşturmak isteyen geliştiriciler için büyük bir sıçrama.

OpenAI, Yanıtlar API'sini, web arama yeteneklerini, dosya arama araçlarını, bilgisayar kullanma özelliklerini ve Agents SDK'sını tanıttı. Bunlar birlikte, her zamankinden daha akıllı ve özerk hissettiren aracılar oluşturmak için sağlam bir çerçeve oluşturuyor. Yeni araçlar, geliştiricilerin güvenli, verimli ve güçlü aracılar oluşturmasına yardımcı olmak için tasarlandı.

Aracılar Nedir? Hızlı Bir Hatırlatma

Yapay zeka bağlamında aracılar, çevrelerini algılayabilen, kararlar alabilen ve belirli hedeflere ulaşmak için eylemler gerçekleştirebilen özerk sistemler veya programlardır. Onları, soruları yanıtlayabilen, görevleri yerine getirebilen ve hatta etkileşimlerden öğrenebilen dijital yardımcılarınız olarak düşünün.

OpenAI'ın yeni araçları, geliştiricilerin bu aracıları OpenAI API'sini kullanarak oluşturmasını sağlayarak onları daha akıllı, daha hızlı ve web'e daha bağlı hale getiriyor.

Başlarken: OpenAI'ın Yanıtlar API'sini Anlama

Yanıtlar API'si, OpenAI'ın Sohbet Tamamlamaları ve Asistanlar API'lerinin en iyi özelliklerini daha basit ve daha güçlü bir araçta birleştiren oyunun kurallarını değiştiren bir özelliktir. OpenAI'ın önceki API'lerine aşinaysanız, bunun aracı oluşturma sürecini nasıl kolaylaştırdığını takdir edeceksiniz.

Başlamak için OpenAI'ın geliştirici belgelerine gidin. Yanıtlar API'si, karmaşık görevleri gerçekleştirmek için birden fazla araç ve modeli entegre etmenize olanak tanır ve bu da onu, soruları yanıtlamaktan çok adımlı iş akışlarını düzenlemeye kadar her şeyi halledebilen yapay zeka aracıları oluşturmak için mükemmel kılar.

İşte nasıl başlayabilirsiniz:

OpenAI API, metin oluşturma, doğal dil işleme, bilgisayarla görme ve daha fazlası için en son yapay zeka modellerine basit bir arayüz sağlar. Bu örnek, ChatGPT kullanırken olduğu gibi, bir istemden metin çıktısı oluşturur.

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
    model: "gpt-4o",
    input: "Bir tek boynuzlu at hakkında tek cümlelik bir yatmadan önce hikayesi yazın."
});

console.log(response.output_text);

Görüntü girdilerini analiz edin

Modele görüntü girdileri de sağlayabilirsiniz. Makbuzları tarayın, ekran görüntülerini analiz edin veya bilgisayarla görme ile gerçek dünyadaki nesneleri bulun.

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
    model: "gpt-4o",
    input: [
        { role: "user", content: "Bu fotoğrafta hangi iki takım oynuyor?" },
        {
            role: "user",
            content: [
                {
                    type: "input_image", 
                    image_url: "https://upload.wikimedia.org/wikipedia/commons/3/3b/LeBron_James_Layup_%28Cleveland_vs_Brooklyn_2018%29.jpg",
                }
            ],
        },
    ],
});

console.log(response.output_text);

Modeli araçlarla genişletin

Araçları kullanarak modele yeni verilere ve yeteneklere erişim sağlayın. Kendi özel kodunuzu çağırabilir veya OpenAI'ın güçlü yerleşik araçlarından birini kullanabilirsiniz. Bu örnek, modelin İnternet'teki en son bilgilere erişmesini sağlamak için web aramasını kullanır.

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
    model: "gpt-4o",
    tools: [ { type: "web_search_preview" } ],
    input: "Bugünden olumlu bir haber hikayesi neydi?",
});

console.log(response.output_text);

Yıldırım hızında yapay zeka deneyimleri sunun

Yeni Gerçek Zamanlı API'yi veya sunucu tarafından gönderilen akış olaylarını kullanarak, kullanıcılarınız için yüksek performanslı, düşük gecikmeli deneyimler oluşturabilirsiniz.

import { OpenAI } from "openai";
const client = new OpenAI();

const stream = await client.responses.create({
    model: "gpt-4o",
    input: [
        {
            role: "user",
            content: "Hızlı bir şekilde on kez 'çift baloncuk banyosu' deyin.",
        },
    ],
    stream: true,
});

for await (const event of stream) {
    console.log(event);
}

Aracılar oluşturun

Kullanıcılarınız adına eylemde bulunabilen (örneğin bilgisayarları kontrol etme) aracılar oluşturmak için OpenAI platformunu kullanın. Arka uçta orkestrasyon mantığı oluşturmak için Python için Agent SDK'sını kullanın.

from agents import Agent, Runner
import asyncio

spanish_agent = Agent(
    name="Spanish agent",
    instructions="You only speak Spanish.",
)

english_agent = Agent(
    name="English agent",
    instructions="You only speak English",
)

triage_agent = Agent(
    name="Triage agent",
    instructions="Handoff to the appropriate agent based on the language of the request.",
    handoffs=[spanish_agent, english_agent],
)


async def main():
    result = await Runner.run(triage_agent, input="Hola, ¿cómo estás?")
    print(result.final_output)


if __name__ == "__main__":
    asyncio.run(main())

# ¡Hola! Estoy bien, gracias por preguntar. ¿Y tú, cómo estás?

API'nin yerleşik araçları bu görevleri sorunsuz bir şekilde yürütür ve size zaman ve çaba tasarrufu sağlar. Ayrıca, geliştiriciler için büyük bir kazanım olan güvenlik ve güvenilirlik göz önünde bulundurularak tasarlanmıştır.

Daha Akıllı Aracılar için Web Araması

OpenAI'ın GPT-4o araması ve GPT-4o mini araması gibi modeller tarafından desteklenen web arama aracı, aracılarızın internetten güncel bilgiler almasını ve kaynakları belirtmesini sağlar. Bu, özellikle doğru, gerçek zamanlı yanıtlar vermesi gereken aracılar oluşturmak için kullanışlıdır.

Web arama aracı, OpenAI API aracılığıyla önizlemede mevcuttur ve etkileyici bir doğruluğa sahiptir. OpenAI'ın SimpleQA kıyaslama ölçütünde, GPT-4o araması %90, GPT-4o mini araması ise %88 puan alıyor. Bu, ciddi bir hassasiyet!

Aracınızda web aramasını uygulamak için OpenAI'ın kılavuzuna göz atın. İşte hızlı bir özet:

Aracı Entegre Edin: Aracınızda web arama yeteneklerini etkinleştirmek için Yanıtlar API'sini kullanın.
Sorgular Oluşturun: Aracınızı, daha sonra ilgili sonuçları alan web arama aracına özel sorgular gönderecek şekilde tasarlayın.
Sonuçları Görüntüleyin: Aracınız, şeffaflık için kaynaklara bağlantılarla birlikte bulguları kullanıcılara sunabilir.

Ürün bulunabilirliği veya sektör trendleri hakkında soruları yanıtlamak için web aramasını kullanan bir müşteri hizmetleri botu oluşturduğunuzu hayal edin. OpenAI'ın web aramasıyla, aracınız zamanında, doğru yanıtlar verebilir, kullanıcı güvenini ve memnuniyetini artırabilir.

Verimli Veri Erişimi için Dosya Aramada Uzmanlaşma

OpenAI'ın cephaneliğindeki bir diğer güçlü araç da dosya arama. Bu özellik, yapay zeka aracılarınızın bilgi almak için bir şirketin veritabanlarındaki dosyaları hızlı bir şekilde taramasını sağlar. Aracılarının dahili belgelere, raporlara veya veri kümelerine erişmesi gereken kurumsal uygulamalar için idealdir.

OpenAI, gizliliği ve güvenliği sağlamak için modellerini bu dosyalar üzerinde eğitmemeyi vurguluyor; bu, işletmeler için kritik bir husustur. Dosya araması hakkında daha fazla bilgiyi belgelerde bulabilirsiniz.

Dosya aramasını aracınıza dahil etme şekli:

Dosyaları Yükleyin: Dosyalarınızı platforma yüklemek için OpenAI API'sini kullanın.
Aracı Yapılandırın: Yanıtlar API'si içinde dosya arama aracını kullanmak için aracınızı ayarlayın.
Verileri Sorgulayın: Aracınız, dosyalar içindeki belirli bilgileri arayabilir ve ilgili sonuçları döndürebilir.

Örneğin, bordro ayrıntılarını veya izin bakiyelerini sağlamak için çalışan kayıtlarını arayan bir İK aracı oluşturabilirsiniz. Bu otomasyon düzeyi, saatlerce süren manuel çalışmadan tasarruf sağlayabilir ve departmanlar genelinde verimliliği artırabilir.

Bilgisayar Kullanım Yetenekleriyle Görevleri Otomatikleştirme

OpenAI'ın Bilgisayar Kullanan Aracı (CUA) modeli, Operator ürününü destekler ve aracılarının fare ve klavye eylemleri oluşturmasını sağlar. Bu, aracılarızın veri girişi, uygulama iş akışları ve web sitesi gezinme gibi görevleri otomatikleştirebileceği anlamına gelir.

Bu araç şu anda araştırma önizlemesinde, ancak geliştiriciler için şimdiden umut vaat ediyor. Yeteneklerini belgelerde keşfedebilirsiniz. Operator'de bulunan CUA'nın tüketici sürümü, web tabanlı eylemlere odaklanırken, işletmeler daha geniş uygulamalar için yerel olarak çalıştırabilir.

İşte nasıl başlayacağınız:

Önizlemeye Erişim: CUA modelini test etmek için araştırma önizlemesine kaydolun.
Görevleri Tanımlayın: Aracınızı, formları doldurmak veya düğmeleri tıklamak gibi belirli bilgisayar görevlerini gerçekleştirecek şekilde programlayın.
Performansı İzleyin: Aracınızın eylemlerini hata ayıklamak ve optimize etmek için OpenAI'ın araçlarını kullanın.

Elektronik tabloları güncellemek veya toplantıları planlamak gibi tekrarlayan ofis görevlerini otomatikleştiren bir aracı oluşturduğunuzu hayal edin. Bilgisayar kullanma yetenekleriyle, aracınız bu görevleri özerk bir şekilde halledebilir ve insan çalışanları daha yaratıcı çalışmalara yönlendirebilir.

1. Modele bir istek gönderin

İlk olarak, OpenAI anahtarını ayarlamak isteyebilirsiniz

import openai
import os

# Set API key
openai.api_key = os.environ.get("OPENAI_API_KEY")

computer_use_preview aracıyla donatılmış computer-use-preview modeliyle bir Yanıt oluşturmak için bir istek gönderin. Bu istek, ortamınızla ilgili ayrıntıların yanı sıra ilk bir giriş istemi içermelidir.

İsteğe bağlı olarak, ortamın ilk durumunun bir ekran görüntüsünü ekleyebilirsiniz.

computer_use_preview aracını kullanabilmek için, truncation parametresini "auto" olarak ayarlamanız gerekir (varsayılan olarak, kesme devre dışıdır).

from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model="computer-use-preview",
    tools=[{
        "type": "computer_use_preview",
        "display_width": 1024,
        "display_height": 768,
        "environment": "browser" # other possible values: "mac", "windows", "ubuntu"
    }],
    input=[
        {
            "role": "user",
            "content": "Check the latest OpenAI news on bing.com."
        }
        # Optional: include a screenshot of the initial state of the environment
        # {
        #     type: "input_image",
        #     image_url: f"data:image/png;base64,{screenshot_base64}"
        # }
    ],
    truncation="auto"
)

print(response.output)

2. Önerilen bir eylem alın

Model, konuşmanın durumuna bağlı olarak bir computer_call öğesi, yalnızca metin veya diğer araç çağrıları içeren bir çıktı döndürür.

computer_call öğelerine örnekler, bir tıklama, bir kaydırma, bir tuşa basma veya API referansında tanımlanan diğer herhangi bir olaydır. Örneğimizde, öğe bir tıklama eylemidir:

"output": [
    {
        "type": "reasoning",
        "id": "rs_67cc...",
        "content": []
    },
    {
        "type": "computer_call",
        "id": "cu_67cc...",
        "call_id": "call_zw3...",
        "action": {
            "type": "click",
            "button": "left",
            "x": 156,
            "y": 50
        },
        "pending_safety_checks": [],
        "status": "completed"
    }
]

Model, bazı eylemler için yanıt çıktısında bir reasoning öğesi döndürebilir. Öyleyse, CUA modeline bir sonraki isteği gönderirken her zaman muhakeme öğelerini dahil etmelisiniz.

Muhakeme öğeleri yalnızca onları üreten aynı modelle uyumludur. Aynı konuşma geçmişine sahip birkaç model kullandığınız bir akış uygularsanız, bu muhakeme öğelerini diğer modellere gönderdiğiniz girdiler dizisinden filtrelemelisiniz.

3. Eylemi ortamınızda yürütün

İlgili eylemleri bilgisayarınızda veya tarayıcınızda yürütün. Bir bilgisayar çağrısını kod aracılığıyla eylemlere nasıl eşlediğiniz, ortamınıza bağlıdır. Bu kod, en yaygın bilgisayar eylemleri için örnek uygulamaları gösterir.

def handle_model_action(page, action):
    """
    Given a computer action (e.g., click, double_click, scroll, etc.),
    execute the corresponding operation on the Playwright page.
    """
    action_type = action.type
    
    try:
        match action_type:

            case "click":
                x, y = action.x, action.y
                button = action.button
                print(f"Action: click at ({x}, {y}) with button '{button}'")
                # Not handling things like middle click, etc.
                if button != "left" and button != "right":
                    button = "left"
                page.mouse.click(x, y, button=button)

            case "scroll":
                x, y = action.x, action.y
                scroll_x, scroll_y = action.scroll_x, action.scroll_y
                print(f"Action: scroll at ({x}, {y}) with offsets (scroll_x={scroll_x}, scroll_y={scroll_y})")
                page.mouse.move(x, y)
                page.evaluate(f"window.scrollBy({scroll_x}, {scroll_y})")

            case "keypress":
                keys = action.keys
                for k in keys:
                    print(f"Action: keypress '{k}'")
                    # A simple mapping for common keys; expand as needed.
                    if k.lower() == "enter":
                        page.keyboard.press("Enter")
                    elif k.lower() == "space":
                        page.keyboard.press(" ")
                    else:
                        page.keyboard.press(k)
            
            case "type":
                text = action.text
                print(f"Action: type text: {text}")
                page.keyboard.type(text)
            
            case "wait":
                print(f"Action: wait")
                time.sleep(2)

            case "screenshot":
                # Nothing to do as screenshot is taken at each turn
                print(f"Action: screenshot")

            # Handle other actions here

            case _:
                print(f"Unrecognized action: {action}")

    except Exception as e:
        print(f"Error handling action {action}: {e}")

4. Güncellenmiş ekran görüntüsünü yakalayın

Eylemi yürüttükten sonra, ortamın güncellenmiş durumunu, ortamınıza bağlı olarak değişen bir ekran görüntüsü olarak yakalayın.

def get_screenshot(page):
    """
    Take a full-page screenshot using Playwright and return the image bytes.
    """
    return page.screenshot()

5. Tekrarla

Ekran görüntüsünü aldıktan sonra, bir sonraki eylemi almak için bunu computer_call_output olarak modele geri gönderebilirsiniz. Yanıtta bir computer_call öğesi aldığınız sürece bu adımları tekrarlayın.

import time
import base64
from openai import OpenAI
client = OpenAI()

def computer_use_loop(instance, response):
    """
    Run the loop that executes computer actions until no 'computer_call' is found.
    """
    while True:
        computer_calls = [item for item in response.output if item.type == "computer_call"]
        if not computer_calls:
            print("No computer call found. Output from model:")
            for item in response.output:
                print(item)
            break  # Exit when no computer calls are issued.

        # We expect at most one computer call per response.
        computer_call = computer_calls[0]
        last_call_id = computer_call.call_id
        action = computer_call.action

        # Execute the action (function defined in step 3)
        handle_model_action(instance, action)
        time.sleep(1)  # Allow time for changes to take effect.

        # Take a screenshot after the action (function defined in step 4)
        screenshot_bytes = get_screenshot(instance)
        screenshot_base64 = base64.b64encode(screenshot_bytes).decode("utf-8")

        # Send the screenshot back as a computer_call_output
        response = client.responses.create(
            model="computer-use-preview",
            previous_response_id=response.id,
            tools=[
                {
                    "type": "computer_use_preview",
                    "display_width": 1024,
                    "display_height": 768,
                    "environment": "browser"
                }
            ],
            input=[
                {
                    "call_id": last_call_id,
                    "type": "computer_call_output",
                    "output": {
                        "type": "input_image",
                        "image_url": f"data:image/png;base64,{screenshot_base64}"
                    }
                }
            ],
            truncation="auto"
        )

    return response

Agents SDK ile Aracılar Düzenleme

OpenAI'ın çoklu aracı iş akışları oluşturmak ve yönetmek için açık kaynaklı araç takımı. Bu SDK, OpenAI'ın önceki çerçevesi Swarm üzerine kuruludur ve geliştiricilere modelleri entegre etmek, koruma önlemleri uygulamak ve aracı etkinliklerini izlemek için ücretsiz araçlar sunar.

Agents SDK, Python öncelikli olup yerleşik aracı döngüleri ve güvenlik kontrolleri gibi özellikler içerir. Birden fazla aracının sorunları çözmek için birlikte çalıştığı karmaşık sistemler oluşturmak için mükemmeldir.

Agents SDK'sını kullanma şekli:

SDK'yı İndirin: OpenAI'ın GitHub deposundan açık kaynak koduna erişin.
Çoklu Aracı İş Akışları Kurun: Aracılar arasında görevleri düzenlemek, yeteneklerine göre devretmek için SDK'yı kullanın.
Koruma Önlemleri Ekleyin: Aracılarızın sorumlu ve güvenilir bir şekilde çalışmasını sağlamak için güvenlik kontrolleri uygulayın.

Örneğin, bir aracı web araştırması yapan, diğeri dosyaları yöneten ve üçüncüsü bilgisayar görevlerini otomatikleştiren bir yapay zeka aracı satış ekibi oluşturabilirsiniz. Agents SDK bunları birbirine bağlayarak sorunsuz, verimli bir sistem oluşturur.

Sonuç

Yanıtlar API'sinden web aramasına, dosya aramasına, bilgisayar kullanımına ve Agents SDK'sına kadar OpenAI, geliştiricileri özerk, akıllı sistemler oluşturmak için gereken her şeyle donattı. İster iş görevlerini otomatikleştiriyor, ister müşteri hizmetlerini geliştiriyor, ister yeni araştırma sınırlarını keşfediyor olun, bu araçlar bir olasılıklar dünyasının kapılarını açıyor.

Öyleyse ne bekliyorsunuz? OpenAI API'sine dalın, yeni araçlarını deneyin ve kullanıcılarınızı etkileyecek aracılar oluşturmaya başlayın. Ve API geliştirmenizi kolaylaştırmak ve yolculuğunuzu daha da sorunsuz hale getirmek için Apidog'u ücretsiz indirmeyi unutmayın!

button