Guia: O que é a API Google Gemini e como usá-la?

O Google atualizou recentemente seu modelo de IA Bard para o novíssimo Gemini. Potencialmente um dos modelos de IA mais capazes e gerais que o Google construiu até hoje, Gemini forneceu 3 modelos para o Gemini 1.0: Gemini Ultra, Gemini Pro e Gemini Nano.

💡

Com a API do Google Gemini 1.0 disponível, desenvolvedores de software e web podem começar a incorporá-la em seus projetos e aplicações. Para construir, testar, documentar e depurar seus projetos de API Gemini, gostaríamos de apresentar a você Apidog - uma ferramenta de desenvolvimento de API com foco em design.

Apidog é uma ferramenta de API gratuita, então comece hoje clicando no botão abaixo! 👇 👇 👇

button

O que é o Gemini do Google?

Gemini é o mais novo modelo de IA geral do Google (ou serviço), construído para multimodalidade.

Gemini é um modelo de IA que é generalizado para ser capaz de processar vários tipos de informação, incluindo texto, código, áudio, imagem e vídeo.

Desta vez, o Google escolheu lançar três modelos diferentes de IA Gemini: Gemini Ultra, Gemini Pro e Gemini Nano, cada um com suas descrições exclusivas, citando seu relatório Gemini 1:

Gemini Ultra: O modelo Gemini mais capaz que oferece desempenho de ponta em uma ampla gama de tarefas altamente complexas, incluindo raciocínio e tarefas multimodais. Ele é eficientemente servível em escala em aceleradores TPU devido à arquitetura Gemini.
Gemini Pro: Um modelo otimizado em termos de custo e latência que oferece desempenho significativo em uma ampla gama de tarefas. Este modelo exibe um forte desempenho de raciocínio e amplas capacidades multimodais.
Gemini Nano: O modelo mais eficiente do Google, projetado para rodar em dispositivos. Eles treinaram duas versões do Nano, com 1,8B (Nano-1) e 3,25B (Nano-2) parâmetros, visando dispositivos de baixa e alta memória, respectivamente. O Nano é treinado por destilação a partir de modelos Gemini maiores e é quantizado em 4 bits para implantação, proporcionando desempenho de classe líder.

O Gemini do Google também é famoso por ser o primeiro modelo a superar especialistas humanos em Compreensão de Linguagem Multitarefa Massiva (MMLU).

Referências do Modelo Gemini

No momento de seu lançamento, o maior concorrente do Gemini é GPT-4 da OpenAI.

Com 4 áreas diferentes para comparação, o Gemini Ultra, o modelo Gemini mais potente, supera o GPT-4 em quase todos os aspectos, exceto em raciocínio de senso comum para tarefas do dia a dia. O Gemini Ultra se destaca na geração precisa de código Python, habilidades de resolução de problemas matemáticos e MMLU geral.

O Google também fez um relatório de referência mais abrangente com o Gemini Pro e outros modelos de IA relevantes que estão disponíveis para uso:

Para fornecer mais contexto sobre a capacidade dos modelos Gemini, o Google fez um teste interno normalizado, usando o Gemini Pro como seu principal parâmetro de referência.

Funcionalidades da IA Gemini

A IA Gemini foi projetada para ser nativamente multimodal para maior eficácia. Ela ajuda o Gemini a entender e raciocinar com todos os tipos de entradas, portanto, se destaca em auxiliar seus usuários que buscam ajuda em:

Raciocínio Sofisticado

As complexas capacidades de raciocínio multimodal do Gemini permitem que o modelo de IA digira e processe informações complexas. O Gemini, portanto, é habilidoso em inferir significados ocultos em grandes quantidades de dados.

Você também pode usar o Gemini para extrair informações específicas de milhares de documentos - ele pode filtrar e entender informações com base nos critérios inseridos e fornecer a você as informações que procura.

Codificação Avançada

O Gemini é capaz de entender, explicar e gerar código. Ele pode gerar código para linguagens de programação amplamente utilizadas, como Python, Java, C++ e Go.

Isso significa que se você tem código que não entende, pode executá-lo através do Gemini para uma análise do que o código faz. Além disso, o Gemini pode ajudar a fornecer código para funcionalidades com as quais você está tendo dificuldades.

Geração de Ideias a partir de Várias Entradas

O Gemini pode responder a vários tipos de entradas. Isso inclui arquivos PDF, fotos, textos e vídeos. Com habilidades de identificação precisas e detalhadas, o Gemini pode se tornar uma fonte de inspiração - uma ferramenta de brainstorming, se preferir chamá-la assim.

Sobre a API Gemini

A liberação do Gemini vem com a API do Google Gemini, permitindo que desenvolvedores criem uma ampla variedade de aplicações baseadas em IA. Com o Gemini, você não está mais restrito apenas ao texto - você também pode inserir imagens para gerar saídas relevantes à entrada.

Disponibilidade da API Gemini

Atualmente, há uma lista de idiomas e regiões onde a API Gemini pode operar. Confira esses links abaixo para descobrir se você é elegível para usar a API Gemini!

Idiomas disponíveis para a API Gemini

Regiões disponíveis para a API Gemini

Precificação da API Gemini

O Google oferece uma versão gratuita do Gemini Pro. Embora encoraje os usuários a criar aplicativos com a API Gemini Pro, os usuários devem estar cientes de que os prompts e respostas envolvidos na versão gratuita da API são registrados, e utilizados no processo de pesquisa e desenvolvimento do Gemini Pro. Em outras palavras, o Google terá um registro de tudo o que a API recebe e fornece (sem privacidade).

Como o Gemini é relativamente novo, a precificação completa da API Gemini ainda não está totalmente disponível, no entanto, um preço cotado para entrada na saída foi fornecido. Custará $0,000125 para inserir 1000 caracteres e $0,0025 para inserir uma mensagem. Para fornecer uma resposta, a API Gemini cobrará $0,000375 para output de 1000 caracteres. No entanto, a versão paga da API Gemini suportará mais de 60 consultas por minuto.

Guia Manual Alternativo Passo a Passo sobre Como Usar a API Gemini

O modelo de IA Gemini é um dos modelos de IA mais poderosos acessíveis gratuitamente. Se você está interessado em criar aplicações com ele, continue lendo esta seção abaixo.

Passo 1: Obter a chave de API Gemini

Para ganhar acesso à API Gemini, primeiro precisamos obter a chave de API Gemini de Google AI para Desenvolvedores.

Você então entrará no painel do Google AI Studio, onde será solicitado que você escolha iniciar um novo prompt ou obter uma chave de API.

Localize o botão acima para criar uma chave de API.

select existing project or new project gemini api key

O Gemini fornece a opção de escolher se você quer trabalhar em um projeto já existente no Google Cloud (talvez em um projeto em equipe) ou criar um projeto totalmente novo.

Assim que você tiver escolhido uma opção, o Gemini gerará uma chave de API para você!

Passo 2 - Copie o Código cURL

Primeiro, vá para o site Google AI para Desenvolvedores, e copie a URL conforme destacado na imagem acima. Não inclua a última parte 2> /dev/null, pois não deve fazer parte do Código cURL.

Em seguida, abra o Apidog, e selecione o botão roxo + na parte superior esquerda da janela do Apidog. Você deve conseguir ver Importar cURL. Como alternativa, você pode usar o atalho Ctrl + I.

Cole o código cURL na janela e pressione o botão OK.

O Apidog permite que os usuários importem códigos cURL existentes em novas requisições! Além disso, você pode modificar essas requisições de código cURL conforme como deseja que funcionem.

Etapas Manuais Alternativas se o Código cURL Não Funcionar

Peça ao Apidog para Criar uma API com a Chave de API Gemini

Este artigo mostrará como usar a chave de API Gemini com Apidog, uma ferramenta de desenvolvimento de API com foco em design.

Primeiro, crie um novo projeto no Apidog. Você pode nomeá-lo de API Gemini, ou qualquer outro nome que desejar!

Em seguida, pressione o botão Nova API.

Agora, vá para o site Google AI para Desenvolvedores, e copie a URL conforme destacado na imagem acima.

Volte para o Apidog e cole a URL da API Gemini que você copiou na zona destacada mostrada na imagem. Como este exemplo é uma requisição POST, também certifique-se de alterar o método de GET para POST.

Observe que o parâmetro de consulta no final da URL foi removido. Não se preocupe - no Apidog, quaisquer parâmetros de consulta serão automaticamente extraídos e preenchidos em Request Params, encontrados na seção Params, conforme mostrado na imagem.

button

Você terá que substituir esta seção pela chave de API Gemini gerada que você obteve anteriormente. Cole-a na seção destacada mostrada na imagem acima. Clique em salvar depois para salvar seu progresso.

Volte ao site Google AI para Desenvolvedores para copiar o corpo da requisição POST. Copie a parte destacada do corpo.

gemini api paste json body post request see response

Volte ao Apidog e, na seção de Requisição, selecione o cabeçalho Body e selecione json. Então, cole o corpo da requisição POST na seção Example.

Se você quiser alterar o prompt que será enviado para a API Gemini, pode editar a string encontrada entre aspas do elemento "text".

Por fim, clique no botão Enviar acima para fazer uma requisição. Você deve então receber uma resposta da API Gemini!

Conclusões

A API Google Gemini é uma ferramenta extremamente poderosa que muitos desenvolvedores atualmente podem utilizar para pequenos programas, aplicações e negócios. Com a capacidade de processar tanto entradas de texto quanto de imagem, a API Gemini pode fornecer aos usuários respostas perspicazes que envolvem inferências inteligentes e contextuais.

O Apidog, além de construir APIs, também pode fornecer um ambiente simples e intuitivo para testar, simular e documentar APIs. Com muitos processos automatizados para ajudar a aumentar a eficiência de um desenvolvedor, considere o Apidog como sua próxima plataforma de API!

button