Comment utiliser les outils d'agent IA d'OpenAI (Tutoriel API pour développeurs)

Vous avez probablement entendu parler des dernières innovations d’OpenAI, de leurs nouveaux outils pour la création d’agents. Ces outils, alimentés par l’API OpenAI, révolutionnent la façon dont les développeurs créent des systèmes intelligents et réactifs. Que vous soyez un codeur chevronné ou débutant, cet article de blog vous expliquera tout ce que vous devez savoir sur l’exploitation des offres d’OpenAI pour créer vos propres agents.

💡

Et avant de plonger, laissez-moi vous donner un bref aperçu : si vous souhaitez dynamiser votre expérience de développement d’API, téléchargez Apidog gratuitement dès aujourd’hui – c’est un outil fantastique pour rationaliser votre travail avec des API comme celle d’OpenAI !

button

Pourquoi les nouveaux outils d’OpenAI pour la création d’agents changent la donne

OpenAI a annoncé l’intégration de capacités de recherche web dans l’API OpenAI. Cette mise à jour introduit des réponses rapides et à jour avec des liens vers des sources web pertinentes, le tout alimenté par le même modèle que celui qui se trouve derrière la recherche ChatGPT. C’est un pas de géant pour les développeurs qui cherchent à créer des systèmes agentiques, pensez aux assistants IA capables de gérer des tâches complexes, d’extraire des données en temps réel et d’interagir de manière transparente avec les utilisateurs.

OpenAI a introduit l’API Responses, les capacités de recherche web, les outils de recherche de fichiers, les fonctionnalités d’utilisation de l’ordinateur et le SDK Agents. Ensemble, ils forment un cadre robuste pour la création d’agents qui semblent plus intelligents et plus autonomes que jamais. Les nouveaux outils sont conçus pour aider les développeurs à créer des agents sûrs, efficaces et puissants.

Que sont les agents, au fait ? Un bref rappel

Les agents, dans le contexte de l’IA, sont des systèmes ou des programmes autonomes qui peuvent percevoir leur environnement, prendre des décisions et agir pour atteindre des objectifs spécifiques. Considérez-les comme vos acolytes numériques capables de répondre à des questions, d’exécuter des tâches ou même d’apprendre des interactions.

Les nouveaux outils d’OpenAI permettent aux développeurs de créer ces agents à l’aide de l’API OpenAI, ce qui les rend plus intelligents, plus rapides et plus connectés au web.

Premiers pas : Comprendre l’API Responses d’OpenAI

L’API Responses est un outil révolutionnaire qui combine les meilleures fonctionnalités des API Chat Completions et Assistants d’OpenAI en un outil plus simple et plus puissant. Si vous connaissez les API précédentes d’OpenAI, vous apprécierez la façon dont cela simplifie le processus de création d’agents.

Pour commencer, rendez-vous sur la documentation pour développeurs d’OpenAI. L’API Responses vous permet d’intégrer plusieurs outils et modèles pour exécuter des tâches complexes, ce qui la rend parfaite pour créer des agents d’IA capables de tout gérer, de répondre à des questions à l’orchestration de flux de travail en plusieurs étapes.

Voici comment vous pouvez commencer :

L’API OpenAI fournit une interface simple pour les modèles d’IA de pointe pour la génération de texte, le traitement du langage naturel, la vision par ordinateur, et plus encore. Cet exemple génère une sortie de texte à partir d’une invite, comme vous pourriez le faire en utilisant ChatGPT.

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
    model: "gpt-4o",
    input: "Write a one-sentence bedtime story about a unicorn."
});

console.log(response.output_text);

Analyser les entrées d’images

Vous pouvez également fournir des entrées d’images au modèle. Numérisez des reçus, analysez des captures d’écran ou trouvez des objets dans le monde réel avec la vision par ordinateur.

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
    model: "gpt-4o",
    input: [
        { role: "user", content: "What two teams are playing in this photo?" },
        {
            role: "user",
            content: [
                {
                    type: "input_image", 
                    image_url: "https://upload.wikimedia.org/wikipedia/commons/3/3b/LeBron_James_Layup_%28Cleveland_vs_Brooklyn_2018%29.jpg",
                }
            ],
        },
    ],
});

console.log(response.output_text);

Étendre le modèle avec des outils

Donnez au modèle l’accès à de nouvelles données et capacités en utilisant des outils. Vous pouvez soit appeler votre propre code personnalisé, soit utiliser l’un des puissants outils intégrés d’OpenAI. Cet exemple utilise la recherche web pour donner au modèle l’accès aux dernières informations sur Internet.

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
    model: "gpt-4o",
    tools: [ { type: "web_search_preview" } ],
    input: "What was a positive news story from today?",
});

console.log(response.output_text);

Offrez des expériences d’IA ultra-rapides

En utilisant soit la nouvelle API en temps réel, soit les événements de diffusion en continu, vous pouvez créer des expériences à haute performance et à faible latence pour vos utilisateurs.

import { OpenAI } from "openai";
const client = new OpenAI();

const stream = await client.responses.create({
    model: "gpt-4o",
    input: [
        {
            role: "user",
            content: "Say 'double bubble bath' ten times fast.",
        },
    ],
    stream: true,
});

for await (const event of stream) {
    console.log(event);
}

Créer des agents

Utilisez la plateforme OpenAI pour créer des agents capables d’agir, comme contrôler des ordinateurs, au nom de vos utilisateurs. Utilisez le SDK Agent pour Python pour créer une logique d’orchestration sur le backend.

from agents import Agent, Runner
import asyncio

spanish_agent = Agent(
    name="Spanish agent",
    instructions="You only speak Spanish.",
)

english_agent = Agent(
    name="English agent",
    instructions="You only speak English",
)

triage_agent = Agent(
    name="Triage agent",
    instructions="Handoff to the appropriate agent based on the language of the request.",
    handoffs=[spanish_agent, english_agent],
)


async def main():
    result = await Runner.run(triage_agent, input="Hola, ¿cómo estás?")
    print(result.final_output)


if __name__ == "__main__":
    asyncio.run(main())

# ¡Hola! Estoy bien, gracias por preguntar. ¿Y tú, cómo estás?

Les outils intégrés de l’API exécutent ces tâches de manière transparente, ce qui vous fait gagner du temps et des efforts. De plus, elle est conçue dans un souci de sécurité et de fiabilité, ce qui est un énorme avantage pour les développeurs.

Recherche web pour des agents plus intelligents

L’outil de recherche web d’OpenAI, alimenté par des modèles comme la recherche GPT-4o et la recherche GPT-4o mini, permet à vos agents d’extraire des informations à jour d’Internet et de citer des sources. Ceci est particulièrement utile pour créer des agents qui doivent fournir des réponses précises et en temps réel.

L’outil de recherche web est disponible en avant-première via l’API OpenAI, et il affiche une précision impressionnante. Sur le benchmark SimpleQA d’OpenAI, la recherche GPT-4o obtient un score de 90 %, tandis que la recherche GPT-4o mini obtient un score de 88 %. C’est une précision sérieuse !

Pour implémenter la recherche web dans votre agent, consultez le guide d’OpenAI. Voici un bref aperçu :

Intégrer l’outil : Utilisez l’API Responses pour activer les capacités de recherche web dans votre agent.
Créer des requêtes : Concevez votre agent pour qu’il envoie des requêtes spécifiques à l’outil de recherche web, qui récupère ensuite les résultats pertinents.
Afficher les résultats : Votre agent peut présenter les résultats aux utilisateurs, avec des liens vers les sources pour plus de transparence.

Imaginez créer un bot de service client qui utilise la recherche web pour répondre aux questions sur la disponibilité des produits ou les tendances du secteur. Avec la recherche web d’OpenAI, votre agent peut fournir des réponses rapides et précises, ce qui renforce la confiance et la satisfaction des utilisateurs.

Maîtriser la recherche de fichiers pour un accès efficace aux données

Un autre outil puissant de l’arsenal d’OpenAI est la recherche de fichiers. Cette fonctionnalité permet à vos agents d’IA de parcourir rapidement les fichiers des bases de données d’une entreprise pour récupérer des informations. Elle est idéale pour les applications d’entreprise où les agents doivent accéder à des documents internes, des rapports ou des ensembles de données.

OpenAI souligne qu’elle ne formera pas ses modèles sur ces fichiers, ce qui garantit la confidentialité et la sécurité, une considération essentielle pour les entreprises. Vous pouvez en savoir plus sur la recherche de fichiers dans la documentation.

Voici comment intégrer la recherche de fichiers dans votre agent :

Télécharger des fichiers : Utilisez l’API OpenAI pour télécharger vos fichiers sur la plateforme.
Configurer l’agent : Configurez votre agent pour qu’il utilise l’outil de recherche de fichiers dans l’API Responses.
Interroger les données : Votre agent peut rechercher des informations spécifiques dans les fichiers et renvoyer les résultats pertinents.

Par exemple, vous pourriez créer un agent RH qui recherche dans les dossiers des employés pour fournir des détails sur la paie ou les soldes de vacances. Ce niveau d’automatisation peut permettre d’économiser des heures de travail manuel et d’améliorer l’efficacité dans tous les services.

Automatiser les tâches grâce aux capacités d’utilisation de l’ordinateur

Le modèle d’agent d’utilisation de l’ordinateur d’OpenAI (CUA), qui alimente le produit Operator, permet aux agents de générer des actions de souris et de clavier. Cela signifie que vos agents peuvent automatiser des tâches telles que la saisie de données, les flux de travail des applications et la navigation sur les sites web.

Cet outil est actuellement en aperçu de recherche, mais il est déjà prometteur pour les développeurs. Vous pouvez explorer ses capacités dans la documentation. La version grand public de CUA, disponible dans Operator, se concentre sur les actions basées sur le web, mais les entreprises peuvent l’exécuter localement pour des applications plus larges.

Voici comment commencer :

Accéder à l’aperçu : Inscrivez-vous à l’aperçu de la recherche pour tester le modèle CUA.
Définir les tâches : Programmez votre agent pour qu’il effectue des tâches informatiques spécifiques, telles que remplir des formulaires ou cliquer sur des boutons.
Surveiller les performances : Utilisez les outils d’OpenAI pour déboguer et optimiser les actions de votre agent.

Imaginez créer un agent qui automatise les tâches de bureau répétitives, comme la mise à jour de feuilles de calcul ou la planification de réunions. Grâce aux capacités d’utilisation de l’ordinateur, votre agent peut gérer ces tâches de manière autonome, libérant ainsi les travailleurs humains pour des activités plus créatives.

1. Envoyer une requête au modèle

Tout d’abord, vous pouvez configurer la clé OpenAI

import openai
import os

# Set API key
openai.api_key = os.environ.get("OPENAI_API_KEY")

Envoyez une requête pour créer une réponse avec le modèle computer-use-preview équipé de l’outil computer_use_preview. Cette requête doit inclure des détails sur votre environnement, ainsi qu’une invite initiale.

En option, vous pouvez inclure une capture d’écran de l’état initial de l’environnement.

Pour pouvoir utiliser l’outil computer_use_preview, vous devez définir le paramètre truncation sur "auto" (par défaut, la troncature est désactivée).

from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model="computer-use-preview",
    tools=[{
        "type": "computer_use_preview",
        "display_width": 1024,
        "display_height": 768,
        "environment": "browser" # other possible values: "mac", "windows", "ubuntu"
    }],
    input=[
        {
            "role": "user",
            "content": "Check the latest OpenAI news on bing.com."
        }
        # Optional: include a screenshot of the initial state of the environment
        # {
        #     type: "input_image",
        #     image_url: f"data:image/png;base64,{screenshot_base64}"
        # }
    ],
    truncation="auto"
)

print(response.output)

2. Recevoir une action suggérée

Le modèle renvoie une sortie qui contient soit un élément computer_call, soit du texte, soit d’autres appels d’outils, selon l’état de la conversation.

Des exemples d’éléments computer_call sont un clic, un défilement, une pression sur une touche ou tout autre événement défini dans la référence de l’API. Dans notre exemple, l’élément est une action de clic :

"output": [
    {
        "type": "reasoning",
        "id": "rs_67cc...",
        "content": []
    },
    {
        "type": "computer_call",
        "id": "cu_67cc...",
        "call_id": "call_zw3...",
        "action": {
            "type": "click",
            "button": "left",
            "x": 156,
            "y": 50
        },
        "pending_safety_checks": [],
        "status": "completed"
    }
]

Le modèle peut renvoyer un élément reasoning dans la sortie de la réponse pour certaines actions. Si c’est le cas, vous devez toujours inclure les éléments de raisonnement lorsque vous envoyez la requête suivante au modèle CUA.

Les éléments de raisonnement ne sont compatibles qu’avec le même modèle qui les a produits. Si vous implémentez un flux où vous utilisez plusieurs modèles avec le même historique de conversation, vous devez filtrer ces éléments de raisonnement du tableau d’entrées que vous envoyez aux autres modèles.

3. Exécuter l’action dans votre environnement

Exécutez les actions correspondantes sur votre ordinateur ou votre navigateur. La façon dont vous mappez un appel d’ordinateur à des actions via le code dépend de votre environnement. Ce code montre des exemples d’implémentations pour les actions informatiques les plus courantes.

def handle_model_action(page, action):
    """
    Given a computer action (e.g., click, double_click, scroll, etc.),
    execute the corresponding operation on the Playwright page.
    """
    action_type = action.type
    
    try:
        match action_type:

            case "click":
                x, y = action.x, action.y
                button = action.button
                print(f"Action: click at ({x}, {y}) with button '{button}'")
                # Not handling things like middle click, etc.
                if button != "left" and button != "right":
                    button = "left"
                page.mouse.click(x, y, button=button)

            case "scroll":
                x, y = action.x, action.y
                scroll_x, scroll_y = action.scroll_x, action.scroll_y
                print(f"Action: scroll at ({x}, {y}) with offsets (scroll_x={scroll_x}, scroll_y={scroll_y})")
                page.mouse.move(x, y)
                page.evaluate(f"window.scrollBy({scroll_x}, {scroll_y})")

            case "keypress":
                keys = action.keys
                for k in keys:
                    print(f"Action: keypress '{k}'")
                    # A simple mapping for common keys; expand as needed.
                    if k.lower() == "enter":
                        page.keyboard.press("Enter")
                    elif k.lower() == "space":
                        page.keyboard.press(" ")
                    else:
                        page.keyboard.press(k)
            
            case "type":
                text = action.text
                print(f"Action: type text: {text}")
                page.keyboard.type(text)
            
            case "wait":
                print(f"Action: wait")
                time.sleep(2)

            case "screenshot":
                # Nothing to do as screenshot is taken at each turn
                print(f"Action: screenshot")

            # Handle other actions here

            case _:
                print(f"Unrecognized action: {action}")

    except Exception as e:
        print(f"Error handling action {action}: {e}")

4. Capturer la capture d’écran mise à jour

Après avoir exécuté l’action, capturez l’état mis à jour de l’environnement sous forme de capture d’écran, qui diffère également selon votre environnement.

def get_screenshot(page):
    """
    Take a full-page screenshot using Playwright and return the image bytes.
    """
    return page.screenshot()

5. Répéter

Une fois que vous avez la capture d’écran, vous pouvez la renvoyer au modèle sous forme de computer_call_output pour obtenir l’action suivante. Répétez ces étapes tant que vous obtenez un élément computer_call dans la réponse.

import time
import base64
from openai import OpenAI
client = OpenAI()

def computer_use_loop(instance, response):
    """
    Run the loop that executes computer actions until no 'computer_call' is found.
    """
    while True:
        computer_calls = [item for item in response.output if item.type == "computer_call"]
        if not computer_calls:
            print("No computer call found. Output from model:")
            for item in response.output:
                print(item)
            break  # Exit when no computer calls are issued.

        # We expect at most one computer call per response.
        computer_call = computer_calls[0]
        last_call_id = computer_call.call_id
        action = computer_call.action

        # Execute the action (function defined in step 3)
        handle_model_action(instance, action)
        time.sleep(1)  # Allow time for changes to take effect.

        # Take a screenshot after the action (function defined in step 4)
        screenshot_bytes = get_screenshot(instance)
        screenshot_base64 = base64.b64encode(screenshot_bytes).decode("utf-8")

        # Send the screenshot back as a computer_call_output
        response = client.responses.create(
            model="computer-use-preview",
            previous_response_id=response.id,
            tools=[
                {
                    "type": "computer_use_preview",
                    "display_width": 1024,
                    "display_height": 768,
                    "environment": "browser"
                }
            ],
            input=[
                {
                    "call_id": last_call_id,
                    "type": "computer_call_output",
                    "output": {
                        "type": "input_image",
                        "image_url": f"data:image/png;base64,{screenshot_base64}"
                    }
                }
            ],
            truncation="auto"
        )

    return response

Orchestrer les agents avec le SDK Agents

La boîte à outils open source d’OpenAI pour la création et la gestion de flux de travail multi-agents. Ce SDK s’appuie sur le framework précédent d’OpenAI, Swarm, et offre aux développeurs des outils gratuits pour intégrer des modèles, mettre en œuvre des mesures de sécurité et surveiller les activités des agents.

Le SDK Agents est axé sur Python et comprend des fonctionnalités telles que des boucles d’agents intégrées et des contrôles de sécurité. Il est parfait pour créer des systèmes complexes où plusieurs agents travaillent ensemble pour résoudre des problèmes.

Voici comment utiliser le SDK Agents :

Télécharger le SDK : Accédez au code open source à partir du dépôt GitHub d’OpenAI.
Configurer les flux de travail multi-agents : Utilisez le SDK pour orchestrer les tâches entre les agents, en déléguant en fonction de leurs capacités.
Ajouter des mesures de sécurité : Mettez en œuvre des contrôles de sécurité pour vous assurer que vos agents fonctionnent de manière responsable et fiable.

Par exemple, vous pourriez créer une équipe de vente d’agents d’IA où un agent gère la recherche web, un autre gère les fichiers et un troisième automatise les tâches informatiques. Le SDK Agents les relie, créant un système transparent et efficace.

Conclusion

De l’API Responses à la recherche web, à la recherche de fichiers, à l’utilisation de l’ordinateur et au SDK Agents, OpenAI a équipé les développeurs de tout ce dont ils ont besoin pour créer des systèmes autonomes et intelligents. Que vous automatisiez des tâches commerciales, amélioriez le service client ou exploriez de nouvelles frontières de la recherche, ces outils ouvrent un monde de possibilités.

Alors, qu’attendez-vous ? Plongez dans l’API OpenAI, expérimentez leurs nouveaux outils et commencez à créer des agents qui impressionnent vos utilisateurs. Et n’oubliez pas de télécharger Apidog gratuitement pour rationaliser votre développement d’API et rendre votre parcours encore plus fluide !

button