El 13 de mayo, se anunció un nuevo modelo de ChatGPT llamado GPT-4o. En comparación con los modelos anteriores, GPT-4o tiene un tiempo de respuesta dos veces más rápido que los modelos anteriores y puede entender texto, imágenes, audio y vídeo. En este artículo, proporcionaremos una explicación exhaustiva de la información básica sobre el último modelo GPT-4o de OpenAI e introduciremos cómo integrar la API de GPT-4o en tus propios servicios.
Apidog también es una herramienta completamente gratuita, ¡así que empieza haciendo clic en el botón de abajo! 👇👇👇
¿Qué es GPT-4o?
GPT-4o es el último modelo de IA anunciado por OpenAI el 13 de mayo. La "o" en "4o" significa "omni", que significa "que lo abarca todo". A diferencia de las interacciones anteriores basadas en texto e imágenes con ChatGPT, GPT-4o te permite interactuar con él usando una combinación de texto, audio, imágenes y vídeo.

Para más detalles, visita el sitio web oficial: https://openai.com/index/hello-gpt-4o/
Características principales de GPT-4o
Entonces, ¿qué características tiene el último modelo de OpenAI, GPT-4o, en comparación con los modelos anteriores?
Tiempo de respuesta 2 veces más rápido
Según OpenAI, se requieren tres pasos para que GPT-4 tenga una conversación con humanos:
- Convertir el habla en texto
- Generar texto de respuesta
- Convertir el texto en habla
En los modelos anteriores, el retraso promedio en este proceso era de 2,8 segundos para GPT-3.5 y 5,4 segundos para GPT-4. Sin embargo, el GPT-4o actual puede responder en tan solo 232 milisegundos, con un tiempo de respuesta promedio de 320 milisegundos, que es casi la misma velocidad de reacción que un humano. En otras palabras, usar el último modelo GPT-4o puede permitir una interacción casi en tiempo real con la IA.
Entiende el tono de audio
Los modelos GPT anteriores no podían reconocer el tono de la voz del hablante o el ruido de fondo, lo que provocaba que se perdiera información en las conversaciones. Sin embargo, con la introducción de GPT-4o, ahora puede entender los tokens de audio del hablante, o las emociones, haciéndolo más parecido a un humano.

Reducción de tokens para muchos idiomas
Además, GPT-4o ha comprimido el número de tokens utilizados para 20 idiomas, como el japonés. Usar el japonés como ejemplo significa que al usar ChatGPT en japonés, se usarán menos tokens.
- Para la interacción "Hola, mi nombre es GPT-4o. Soy un nuevo tipo de modelo de lenguaje. Encantado de conocerte", el número de tokens utilizados ha disminuido de 37 a 26, una reducción de 1,4 veces.


Otra información importante del anuncio de GPT-4o
Además de las características del modelo GPT-4o en sí, la siguiente información también se destacó en el anuncio de GPT-4o:
Casi todos los servicios son gratuitos
Los servicios previamente pagados como GPTs, GPT Store y GPT-4 estarán disponibles de forma gratuita tras el anuncio de GPT-4o.
Aplicación de escritorio proporcionada
Si bien ChatGPT solo ha estado disponible en línea hasta ahora, se anunció una nueva aplicación de escritorio ChatGPT para macOS en el anuncio del modelo GPT-4o. También se espera que se lance una aplicación para Windows en la segunda mitad de este año.
Comprendiendo los detalles de GPT-4o
Si quieres conocer la información detallada sobre el nuevo modelo de IA de OpenAI - GPT-4o, aquí puedes consultar su grabación de vídeo de su conferencia de prensa.
¿Cómo acceder a la API de GPT-4o?
Al desarrollar aplicaciones web, es muy conveniente usar las API para integrar la funcionalidad de IA en tus propios servicios. Con el anuncio del modelo GPT-4o, necesitarás usar la API de GPT-4o para introducir las capacidades sobresalientes del modelo GPT-4o en tus propios servicios. Entonces, ¿se puede usar la API de GPT-4o? ¿Cuánto cuesta? Echemos un vistazo más de cerca a estas preguntas.
¿Está disponible la API de GPT-4o para usar?
Según la información más reciente de OpenAI, la API del modelo GPT-4o ya está disponible como modelo de texto y visión en la API de Chat Completions, la API de Assistants y la API de Batch.

Actualizaciones de la API de GPT-4o
En comparación con las API de modelos ChatGPT anteriores, la API de GPT-4o se considera mejor en las siguientes áreas:
- Mayor inteligencia: proporciona un rendimiento de nivel GPT-4 Turbo en texto, razonamiento y habilidades de codificación, y establece nuevos estándares altos en capacidades multilingües, de audio y visuales.
- Velocidad de respuesta 2 veces más rápida: la velocidad de generación de tokens se duplica en comparación con GPT-4 Turbo.
- Precio 50% más barato: 50% más barato que GPT-4 Turbo tanto para tokens de entrada como de salida.
- Límite de velocidad 5 veces mayor: el límite de velocidad es 5 veces mayor que GPT-4 Turbo, hasta 10 millones de tokens por minuto.
- Capacidades visuales mejoradas: las capacidades visuales han mejorado para la mayoría de las tareas.
- Capacidades mejoradas de idiomas no ingleses: procesamiento mejorado de idiomas no ingleses y utiliza un nuevo tokenizador para tokenizar texto no inglés de manera más eficiente.
Precios de la API de GPT-4o
Entonces, ¿cuánto cuesta usar este último modelo de API de GPT-4o? Según el sitio web oficial de la API de OpenAI, GPT-4o es más rápido y rentable que GPT-4 Turbo, al tiempo que ofrece capacidades de visión más potentes. Este modelo tiene un contexto de 128K y cubre el conocimiento hasta octubre de 2023. Además, es un 50% más barato que GPT-4 Turbo. El plan de precios específico es el siguiente:
Según la página de precios de la API de OpenAI, el coste/precio de GPT-4o es el siguiente:
- Entrada de texto: $5/ 1M de tokens
- Salida de texto: $15/ 1M de tokens
Y, el coste del procesamiento de visión (generación de imágenes) se calcula en función del ancho y el alto de la imagen. Por ejemplo, el coste de procesar una imagen de 150 px de alto y 150 px de ancho es de $0,001275. Los usuarios pueden ajustar libremente la resolución de la imagen, y el precio se basa en el número de píxeles.

Entonces, ya sea entrada, salida o generación de imágenes, el coste de usar la API de GPT-4o es la mitad que el de GPT-4 Turbo.
Notas importantes al usar la API de GPT-4o
Al usar la API de GPT-4o o intentar cambiar de otros modelos a la API de GPT-4o, debes prestar atención a los siguientes puntos:
- La API de GPT-4o puede entender vídeo sin audio a través de la capacidad de percepción. Específicamente, necesitas convertir el vídeo en fotogramas (2-4 fotogramas por segundo, ya sea muestreados uniformemente o usando un algoritmo de selección de fotogramas clave), y luego introducir esos fotogramas en el modelo.
- A partir del 14 de mayo de 2024, la API de GPT-4o aún no admite la modalidad de audio. Sin embargo, OpenAI espera proporcionar la modalidad de audio a los probadores de confianza en las próximas semanas.
- A partir del 14 de mayo de 2024, la API de GPT-4o no admite la generación de imágenes por un tiempo, por lo que si necesitas la generación de imágenes, se recomienda usar la API de DALL-E 3.
- OpenAI recomienda que todos los usuarios que actualmente usan GPT-4 o GPT-4 Turbo consideren cambiar a GPT-4o. GPT-4o no es necesariamente más capaz que GPT-4 o GPT-4 Turbo en todos los casos, por lo que OpenAI sugiere comparar las salidas y probar GPT-4o para evaluar sus capacidades antes de considerar el cambio.
Prueba y gestiona fácilmente la API de GPT-4o con Apidog
Al usar la API de GPT-4o, tareas como las pruebas y la gestión de la API se vuelven esenciales.
Al usar la herramienta de gestión de API más conveniente: Apidog, puedes manejar cualquier API de manera más conveniente y eficiente. Dado que la API de GPT-4o ya está disponible, puedes acceder al API Hub en Apidog y acceder fácilmente al proyecto de la API de OpenAI. Luego, puedes clonar el proyecto de la API de GPT-4o a tu proyecto, usar y probar la API de GPT-4o y gestionarla convenientemente con Apidog.

Además, Apidog admite eventos enviados por el servidor (SSE), lo que facilita la transmisión de la API de GPT-4o. Para más detalles, consulta este artículo:

Requisito previo para usar la API de GPT-4o: clave de API de OpenAI
Para empezar a usar la API de GPT-4o, primero necesitas obtener un token de API de OpenAI. Sigue el tutorial a continuación para obtener tu clave de API de OpenAI.
1. Regístrate para obtener una cuenta de OpenAI
Para empezar a usar la API de GPT-4o, primero necesitas crear una cuenta de OpenAI. Accede al sitio web oficial de OpenAI y haz clic en el botón "Get Started" en la esquina superior derecha para crear una cuenta.

2. Obtén la clave de API de OpenAI
Después de crear tu cuenta de OpenAI, necesitas obtener una clave de API para la autenticación, que es un requisito para usar la API de GPT-4o. Sigue estos pasos para obtener tu clave de API de ChatGPT:
Paso 1: Accede a la página de claves de API en OpenAI e inicia sesión con tu cuenta (o crea una nueva cuenta si no tienes una).
Paso 2: Haz clic en el botón "Create new secret key" para generar una nueva clave de API.

Después de generar la clave de API, se mostrará inmediatamente en la pantalla. Sin embargo, no podrás volver a ver la clave de API, por lo que se recomienda registrarla y almacenarla de forma segura.
Prueba y gestiona la API de GPT-4o con Apidog
Apidog es una herramienta increíblemente conveniente para usar la API de GPT-4o. Apidog tiene un proyecto de API de OpenAI que cubre todas las API proporcionadas por OpenAI. Si quieres consultar las API proporcionadas por OpenAI, accede a la siguiente página:

Actualmente, la API de GPT-4o solo está disponible en la API de Chat Completions, la API de Assistants y la API de Batch, así que selecciona cada una en el menú de la izquierda del proyecto de la API de OpenAI para empezar a usar la API de GPT-4o.

Paso a paso: Usando la API de GPT-4o con Apidog
Al acceder al proyecto de la API de OpenAI en Apidog, puedes probar fácilmente las API de OpenAI siguiendo estos pasos. Veamos cómo usar GPT-4o con la API de Chat Completions.
Paso 1: Accede al proyecto de la API de OpenAI en Apidog, selecciona el punto final de la API de Chat Completions en el menú de la izquierda y, en la nueva pantalla de solicitud, introduce el método HTTP y la URL del punto final de acuerdo con la especificación de ChatGPT. Luego, en la pestaña "Body", escribe el mensaje que quieres enviar a ChatGPT en formato JSON.
Nota: Para usar GPT-4o, especifica el modelo como "gpt-4o" incluyendo "model":"gpt-4o"
.

Paso 2: Cambia a la pestaña "Header", añade el parámetro Authorization para autenticarte con la API de ChatGPT, introduce la clave de API de ChatGPT que obtuviste y haz clic en el botón "Send".

Nota: En Apidog, puedes almacenar tu clave de API de OpenAI como una variable de entorno. Almacenar la clave de API de OpenAI como una variable de entorno significa que puedes hacer referencia directamente a la variable de entorno más tarde sin tener que volver a introducir la clave de API repetidamente, lo cual es conveniente.

Resumen
En este artículo, proporcionamos una explicación detallada del último modelo de OpenAI, GPT-4o. GPT-4o tiene el doble de tiempo de respuesta en comparación con los modelos anteriores y puede entender texto, imágenes, audio y vídeo. Además, se ha reducido el número de tokens utilizados para el japonés, lo que mejora el rendimiento de los costes.
La API de GPT-4o está disponible en la API de Chat Completions, la API de Assistants y la API de Batch, con características como mayor inteligencia, velocidad de respuesta 2 veces más rápida, precios 50% más baratos, límite de velocidad 5 veces mayor, capacidades visuales mejoradas y capacidades mejoradas de idiomas no ingleses en comparación con las API de modelos ChatGPT anteriores.
Para usar la API de GPT-4o, primero necesitas crear una cuenta de OpenAI y obtener una clave de API. Luego, con Apidog, puedes probar y gestionar fácilmente la API de GPT-4o. Apidog tiene un proyecto de API de OpenAI que cubre las especificaciones de la API de GPT-4o, y puedes almacenar tu clave de API como una variable de entorno para evitar volver a introducirla.
En el futuro, se añadirá soporte de audio a la API de GPT-4o. Al aprovechar las excelentes características de GPT-4o e incorporarlas a tus servicios, puedes proporcionar una experiencia de IA aún mejor.