Guía: ¿Qué es la API de Google Gemini y cómo usarla?

Google ha actualizado recientemente su modelo Bard AI al nuevo Gemini. Potencialmente uno de los modelos de IA más capaces y generales que Google ha creado hasta la fecha, Gemini ha proporcionado 3 modelos para Gemini 1.0: Gemini Ultra, Gemini Pro y Gemini Nano.

💡

Como la API de Google Gemini 1.0 ya está disponible, los desarrolladores de software y web pueden empezar a incorporarla a sus proyectos y aplicaciones. Para construir, probar, documentar y depurar tus proyectos de la API de Gemini, nos gustaría presentarte Apidog - una herramienta de desarrollo de API con diseño prioritario.

Apidog es una herramienta de API de uso gratuito, ¡así que empieza hoy mismo haciendo clic en el botón de abajo! 👇 👇 👇

button

¿Qué es Gemini de Google?

Gemini es el modelo de IA general (o servicio) más reciente de Google, creado para la multimodalidad.

Gemini es un modelo de IA que está generalizado para poder procesar varios tipos de información, incluyendo texto, código, audio, imagen y vídeo.

Esta vez, Google ha optado por lanzar tres modelos diferentes de IA Gemini: Gemini Ultra, Gemini Pro y Gemini Nano, cada uno con sus descripciones características, citando su informe de Gemini 1:

Gemini Ultra: El modelo Gemini más capaz que ofrece un rendimiento de última generación en una amplia gama de tareas muy complejas, incluyendo tareas de razonamiento y multimodales. Se puede servir de forma eficiente a escala en aceleradores TPU debido a la arquitectura de Gemini.
Gemini Pro: Un modelo optimizado en cuanto a rendimiento en términos de coste y latencia que ofrece un rendimiento significativo en una amplia gama de tareas. Este modelo exhibe un fuerte rendimiento de razonamiento y amplias capacidades multimodales.
Gemini Nano: El modelo más eficiente de Google que está diseñado para ejecutarse en el dispositivo. Han entrenado dos versiones de Nano, con 1.8B (Nano-1) y 3.25B (Nano-2) parámetros, dirigidas a dispositivos de memoria baja y alta respectivamente. Nano se entrena destilando de modelos Gemini más grandes y se cuantifica a 4 bits para su despliegue, proporcionando el mejor rendimiento de su clase.

Gemini de Google también es famoso por ser el primer modelo en superar a los expertos humanos en Massive Multitask Language Understanding (MMLU).

Puntos de referencia del modelo Gemini

En el momento de su lanzamiento, el mayor competidor de Gemini es GPT-4 de OpenAI.

Con 4 áreas diferentes para la comparación, Gemini Ultra, el modelo Gemini más potente, supera a GPT-4 en casi todos los aspectos, excepto en el razonamiento de sentido común para las tareas cotidianas. Gemini Ultra destaca en la generación precisa de código Python, las habilidades de resolución de problemas matemáticos y el MMLU general.

Google también ha elaborado un informe de referencia más completo con Gemini Pro y otros modelos de IA relevantes que están disponibles para su uso:

Para proporcionar más contexto sobre la capacidad de los modelos Gemini, Google ha realizado una prueba interna normalizada, utilizando Gemini Pro como su principal punto de referencia.

Funcionalidades de la IA Gemini

La IA Gemini está diseñada para ser nativamente multimodal para una mayor eficacia. Ayuda a Gemini a comprender y razonar con todo tipo de entradas, por lo que destaca en ayudar a sus usuarios que buscan ayuda en:

Razonamiento sofisticado

Las complejas capacidades de razonamiento multimodal de Gemini pueden permitir que el modelo de IA digiera y procese información compleja. Por lo tanto, Gemini es experto en inferir significados ocultos en medio de grandes cantidades de datos.

También puedes utilizar Gemini para extraer información específica de miles de documentos: puede filtrar y comprender la información basándose en los criterios introducidos y proporcionarte la información que buscas.

Codificación avanzada

Gemini es capaz de comprender, explicar y generar código. Puede generar código para lenguajes de programación ampliamente utilizados como Python, Java, C++ y Go.

Esto significa que si tienes código que no entiendes, puedes ejecutarlo a través de Gemini para obtener un desglose de lo que hace el código. Además de eso, Gemini puede ayudar a proporcionar código para las funcionalidades con las que estás teniendo dificultades.

Generación de ideas a partir de varias entradas

Gemini puede responder a varios tipos de entradas. Esto incluye archivos PDF, imágenes, textos y vídeos. Con habilidades de identificación precisas y detalladas, Gemini puede convertirse en una fuente de inspiración: una herramienta de lluvia de ideas si quieres llamarlo así.

Acerca de la API de Gemini

El lanzamiento de Gemini viene con la API de Google Gemini, que permite a los desarrolladores una amplia variedad de aplicaciones basadas en IA. Con Gemini, ya no estás limitado solo al texto: también puedes introducir imágenes para generar salidas relevantes para la entrada.

Disponibilidad de la API de Gemini

Actualmente, hay una lista de idiomas y regiones disponibles donde la API de Gemini puede operar. ¡Consulta estos enlaces a continuación para averiguar si eres elegible para usar la API de Gemini!

Idiomas disponibles para la API de Gemini

Regiones disponibles para la API de Gemini

Precios de la API de Gemini

Google proporciona una versión gratuita de Gemini Pro. Aunque anima a los usuarios a crear aplicaciones con la API de Gemini Pro, los usuarios deben ser conscientes de que las indicaciones y respuestas involucradas en la versión gratuita de la API se registran y se utilizan en el proceso de investigación y desarrollo de Gemini Pro. En otras palabras, Google tendrá un registro de lo que la API recibe y proporciona (sin privacidad).

Como Gemini es relativamente nuevo, el precio completo de la API de Gemini no está completamente disponible, sin embargo, se ha proporcionado un precio cotizado para la entrada en la salida. Costará 0,000125 $ introducir 1000 caracteres y 0,0025 $ introducir un mensaje. Para dar una respuesta, la API de Gemini cobrará 0,000375 $ por sacar 1000 caracteres. Sin embargo, la versión de pago de la API de Gemini admitirá más de 60 consultas por minuto.

Guía alternativa manual paso a paso sobre cómo usar la API de Gemini

El modelo de IA Gemini es uno de los modelos de IA más potentes accesibles de forma gratuita. Si estás interesado en crear aplicaciones con él, continúa leyendo esta sección a continuación.

Paso 1: Obtener la clave de la API de Gemini

Para obtener acceso a la API de Gemini, primero tenemos que obtener la clave de la API de Gemini de Google AI for Developers.

A continuación, entrarás en el panel de control de Google AI Studio, donde te pedirán que elijas iniciar una nueva solicitud o obtener una clave de API.

Localiza el botón de arriba para crear una clave de API.

select existing porject or new project gemini api key

Gemini ofrece la opción de elegir si quieres trabajar en un proyecto ya en Google Cloud (tal vez en un proyecto de equipo) o crear un proyecto nuevo.

Una vez que hayas elegido una opción, Gemini generará una clave de API para ti.

Paso 2: Copiar el código cURL

En primer lugar, ve al sitio web de Google AI for Developers y copia la URL como se destaca en la imagen de arriba. No incluyas la última parte 2> /dev/null ya que no se supone que forme parte del código cURL.

A continuación, abre Apidog y selecciona el botón púrpura + alrededor de la esquina superior izquierda de la ventana de Apidog. Deberías poder ver Import cURL. Alternativamente, puedes usar el atajo Ctrl + I.

Pega el código cURL en la ventana y pulsa el botón OK.

¡Apidog permite a los usuarios importar código cURL existente en nuevas solicitudes! Además, puedes modificar estas solicitudes de código cURL de acuerdo con cómo quieres que funcionen.

Pasos manuales alternativos si el código cURL no funciona

Haz que Apidog cree una API con la clave de la API de Gemini

Este artículo mostrará cómo usar la clave de la API de Gemini con Apidog, una herramienta de desarrollo de API con diseño prioritario.

Primero, crea un nuevo proyecto en Apidog. ¡Puedes llamarlo API de Gemini o cualquier cosa que desees!

Luego, pulsa el botón New API.

Ahora, ve al sitio web de Google AI for Developers y copia la URL como se destaca en la imagen de arriba.

Regresa a Apidog y pega la URL de la API de Gemini que copiaste en la zona resaltada que se muestra en la imagen. Como este ejemplo es una solicitud POST, también asegúrate de cambiar el método de GET a POST.

Observa que el parámetro de consulta al final de la URL se elimina. No te preocupes: en Apidog, cualquier parámetro de consulta se extraerá automáticamente y se rellenará en Request Params, que se encuentra en la sección Params, como se muestra en la imagen.

button

Tendrás que reemplazar esta sección con la clave de la API de Gemini generada anteriormente. Pégala en la sección resaltada que se muestra en la imagen de arriba. Haz clic en guardar después para guardar tu progreso.

Regresa al sitio web de Google AI for Developers para copiar el cuerpo de la solicitud POST. Copia la parte resaltada del cuerpo.

gemini api paste json body post request see response

Vuelve a Apidog y, en la sección Request, selecciona el encabezado Body y selecciona json. Luego, pega el cuerpo de la solicitud POST en la sección Example.

Si quieres cambiar la solicitud que se enviará a la API de Gemini, puedes editar la cadena que se encuentra entre las comillas del elemento "text".

Por último, pulsa el botón Send de arriba para realizar una solicitud. ¡Entonces deberías recibir una respuesta de la API de Gemini!

Conclusiones

La API de Google Gemini es una herramienta extremadamente poderosa que muchos desarrolladores de hoy pueden utilizar para pequeños programas, aplicaciones y negocios. Con la capacidad de procesar tanto texto como entrada de imagen, la API de Gemini puede proporcionar a los usuarios respuestas perspicaces que involucran inferencias inteligentes y contextuales.

Apidog, además de construir APIs, también puede proporcionar un entorno simple e intuitivo para probar, simular y documentar APIs. Con muchos procesos automatizados para ayudar a aumentar la eficiencia de un desarrollador, ¡considera Apidog como tu próxima plataforma API!

button