Apidog

Plataforma Colaborativa All-in-one para Desenvolvimento de API

Design de API

Documentação de API

Depuração de API

Mock de API

Testes Automatizados de API

30+ APIs LLM Gratuitas e de Código Aberto para Desenvolvedores

@apidog

@apidog

Updated on abril 16, 2025

Modelos de Linguagem Grande (LLMs) de código aberto poderosos mudaram fundamentalmente o acesso às capacidades de IA de ponta. Para os desenvolvedores, essa revolução é ampliada pelo crescente número de plataformas que oferecem níveis de acesso à API gratuitos ou créditos iniciais substanciais. Essa sinergia elimina barreiras de custo significativas, permitindo que engenheiros experimentem, prototipem e implantem recursos sofisticados impulsionados por IA usando modelos de ponta sem compromisso financeiro imediato. À medida que olhamos para 2025, compreender o panorama dos LLMs de código aberto de alta qualidade, acessíveis gratuitamente via APIs, é crucial para a inovação.

💡
Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, tudo-em-um, para sua equipe de desenvolvedores trabalharem juntas com máxima produtividade?

Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!
botão

Este artigo proporciona uma exploração técnica de mais de 30 modelos, focando em aqueles disponíveis através de provedores listados com níveis de uso gratuito. Vamos nos aprofundar nas famílias de modelos proeminentes, variantes específicas, suas características técnicas (onde inferíveis a partir das listagens) e as plataformas que facilitam seu acesso gratuito.

(Aviso: "Acesso gratuito" refere-se a modelos disponíveis através de plataformas que oferecem níveis sem custo ou créditos de teste significativos, com base nos dados da fonte. A disponibilidade de modelos, versionamento específico, limites de taxa e termos de serviço estão sujeitos a alterações pelos provedores. Sempre consulte a documentação oficial do provedor.)

Llama da Meta: De Onde Vem o Locallama

A família Llama da Meta (Modelo de Linguagem Grande Meta AI) tem sido fundamental para impulsionar o movimento de LLMs de código aberto. Cada iteração sucessiva representa avanços significativos em arquitetura, dados de treinamento e desempenho geral, muitas vezes estabelecendo referências para modelos abertos. Muitas plataformas aproveitam várias versões do Llama dentro de seus níveis gratuitos.

Principais Modelos Llama Acessíveis Gratuitamente via API:

  • Llama 2 (7B/13B Chat): Embora modelos Llama 2 mais antigos e fundamentais, particularmente versões quantizadas (AWQ, INT8), permaneçam acessíveis, principalmente através do Cloudflare Workers AI. Estes servem como referências eficientes.
  • Llama 3 8B Instruct: Um modelo menor muito respeitado da geração Llama 3, conhecido por seu equilíbrio entre desempenho e eficiência computacional. Está amplamente disponível em níveis gratuitos, incluindo Groq, Cloudflare (padrão e AWQ), OVH, Cerebras e GitHub Models.
  • Llama 3 70B Instruct: O maior correspondente no lançamento inicial do Llama 3, oferecendo substancialmente mais capacidade para tarefas complexas de raciocínio e geração. Sua disponibilidade em níveis gratuitos é menos comum, mas pode ser encontrada, frequentemente com limites mais rígidos, em plataformas como Groq e GitHub Models.
  • Llama 3.1 8B Instruct: Uma melhoria iterativa sobre o modelo 8B. Sua disponibilidade em níveis gratuitos é forte, aparecendo em Groq, Cerebras, OVH, Cloudflare (padrão, AWQ, FP8), GitHub Models, Google Cloud (preview), Sambanova (trial), Scaleway (trial) e Hyperbolic (trial). A disponibilidade do FP8 no Cloudflare e no GitHub destaca a implantação otimizada para ambientes de borda ou com recursos limitados.
  • Llama 3.1 70B Instruct: O correspondente maior no série 3.1. Pontos de acesso gratuito incluem OVH, GitHub Models, Google Cloud (preview), Scaleway (trial), Hyperbolic (trial) e Sambanova (trial).
  • Llama 3.1 405B (Base/Instruct): Representando o auge da série Llama 3.1 em termos de contagem de parâmetros. O acesso via trials gratuitos é observado em plataformas como Hyperbolic e Sambanova Cloud. GitHub Models também lista acesso. Essa escala geralmente envolve recursos computacionais significativos.
  • Llama 3.2 (1B/3B Instruct): Modelos menores, novos e altamente eficientes, almejando cenários onde o uso de recursos é primordial. Disponível via Cloudflare e testes gratuitos no Hyperbolic e Sambanova.
  • Llama 3.2 (11B/90B) Vision Instruct: Variantes multimodais que integram capacidades visuais. A versão 11B está notavelmente disponível no nível gratuito dedicado do Together e no Cloudflare, enquanto a versão muito maior de 90B é listada como gratuita durante a revisão no Google Cloud e disponível via testes no Sambanova. Isso marca uma expansão significativa em tarefas multimodais para a família Llama.
  • Llama 3.3 70B Instruct: Um modelo de instrução grande e mais recente. Sua disponibilidade em níveis gratuitos é muito boa, oferecida por Cerebras, Groq (com limites diários mais baixos que 8B), OVH, Together (nível gratuito dedicado), Google Cloud (preview), GitHub Models e testes no Hyperbolic e Sambanova.
  • Llama 4 Scout / Maverick Instruct: Os modelos de pré-visualização da próxima geração da Meta. Scout parece focado na eficiência (16E provavelmente se refere a parâmetros de Mistura de Especialistas), enquanto Maverick (128E) visa maior desempenho. Ambos estão disponíveis via Groq (com limites diários mais baixos), Cerebras (limite de contexto de 8k), Google Cloud (preview), GitHub Models (variante FP8 para Maverick) e testes no Sambanova e Chutes.
  • Llama Guard (7B / 3 8B): Modelos especificamente projetados para tarefas de segurança de IA, como filtragem de entrada/saída e moderação de conteúdo. Disponíveis via Cloudflare (AWQ 7B) e Groq / Sambanova (trial) / GitHub Models (3 8B).

Destaque da Família Llama (Acesso Gratuito): Llama 3.3 70B Instruct se destaca devido à sua combinação de ser um modelo grande e de alto desempenho e com disponibilidade relativamente ampla em vários níveis gratuitos (Cerebras, Groq, OVH, Together) e pré-visualizações/testes (Google Cloud, GitHub, Hyperbolic, Sambanova). Para tarefas multimodais, o Llama 3.2 11B Vision Instruct no nível gratuito do Together e no Cloudflare é uma opção acessível chave. Para máxima eficiência, as variantes Llama 3.1 8B Instruct (incluindo quantizados AWQ/FP8) oferecem disponibilidade generalizada.

Mistral AI: Do Francês com Amor

A Mistral AI rapidamente ganhou destaque ao lançar modelos com pesos abertos demonstrando desempenho excepcional em relação às suas contagens de parâmetros, frequentemente empregando inovações arquitetônicas como Atenção por Consulta Agrupada (GQA) e Atenção por Janela Deslizante (SWA).

Principais Modelos Mistral Acessíveis Gratuitamente via API:

  • Mistral 7B Instruct (v0.1, v0.2, v0.3): Um modelo fundamental que estabeleceu altas referências para a classe de parâmetros 7B. Suas várias versões estão amplamente disponíveis em níveis gratuitos, incluindo OpenRouter, Cloudflare (v0.1, v0.2 padrão/AWQ/LoRA), OVH (v0.3) e testes no Sambanova (E5-Mistral fine-tune). Sua ubiquidade o torna um excelente ponto de partida.
  • Mixtral 8x7B Instruct v0.1: Um modelo de Mixture-of-Experts (SMoE) de alto desempenho. Cada token processa apenas uma fração (tipicamente dois 'especialistas' de 7B parâmetros cada) do total de parâmetros, proporcionando eficiência computacional mais próxima de um modelo denso ~14B, mas com desempenho frequentemente rivalizando modelos muito maiores. Acessível via beta gratuita da OVH.
  • Mistral Nemo: Uma nova arquitetura da Mistral. Disponível via OpenRouter, OVH, GitHub Models e teste no Scaleway.
  • Mistral Small 3.1 24B Instruct: Um modelo proprietário da Mistral, mas o acesso é fornecido através de níveis gratuitos no OpenRouter e Cloudflare e via testes no Scaleway e GitHub Models. Nota: Embora poderoso, este não é estritamente um modelo de código aberto, mas incluído devido à disponibilidade da API gratuita listada.
  • Zephyr 7B Beta: Um popular fine-tune do Mistral 7B pela HuggingFace H4, conhecido por melhorar o seguimento de instruções e capacidades de chat. Disponível via OpenRouter e Cloudflare (AWQ).
  • Hermes 2 Pro Mistral 7B: Outro fine-tune bem considerado baseado no Mistral 7B. Acessível via o nível gratuito do Cloudflare.
  • OpenHermes 2.5 Mistral 7B: Mais um fine-tune Mistral 7B, disponível via Cloudflare (AWQ).

Destaque da Família Mistral (Acesso Gratuito): Mistral 7B Instruct (qualquer versão) continua sendo um destaque devido ao seu histórico comprovado, excelente desempenho por parâmetro e disponibilidade extremamente ampla em diversos provedores de API gratuitos (OpenRouter, Cloudflare, OVH). Para desenvolvedores que buscam explorar a arquitetura SMoE, o Mixtral 8x7B Instruct no nível gratuito da OVH é uma oferta-chave.

Google Gemma: Pequeno mas Poderoso

Gemma representa a família de modelos abertos do Google, desenvolvidos usando pesquisa e tecnologia compartilhadas com seus modelos principais Gemini. Eles oferecem uma variedade de tamanhos e são projetados para desenvolvimento responsável de IA.

Principais Modelos Gemma Acessíveis Gratuitamente via API:

  • Gemma 2B Instruct: Um modelo menor adequado para tarefas menos exigentes ou ambientes com restrições de recursos. Disponível via Cloudflare (variante LoRA).
  • Gemma 7B Instruct: Um modelo de médio porte capaz. Disponível via Cloudflare (variantes padrão e LoRA).
  • Gemma 2 9B Instruct: O sucessor do modelo original 7B, oferecendo capacidades aprimoradas. Acessível via níveis gratuitos do OpenRouter e Groq.
  • Gemma 3 (1B, 4B, 12B, 27B) Instruct: A última geração, abrangendo uma ampla gama de tamanhos. Os menores modelos de 1B e 4B estão no OpenRouter e no Google AI Studio. O 12B está no OpenRouter, Google AI Studio e Cloudflare. O modelo maior de 27B está disponível via OpenRouter, Google AI Studio e teste no Scaleway. O Google AI Studio fornece cotas gratuitas generosas para esses.

Destaque da Família Gemma (Acesso Gratuito): A série Gemma 3, particularmente o 12B Instruct e 27B Instruct, representa os últimos avanços disponíveis gratuitamente via OpenRouter e Google AI Studio (com limites altos). A ampla disponibilidade em tamanhos (1B a 27B) dentro da linha Gemma 3 em níveis gratuitos (OpenRouter/Google AI Studio/Cloudflare/Scaleway) torna-a uma família versátil para experimentação. O Gemma 2 9B Instruct no Groq também oferece acesso de inferência em alta velocidade.

Qwen da Alibaba: Melhor Multimodal & Multilíngue de Código Aberto?

Os modelos Qwen (Tongyi Qianwen) da Alibaba demonstraram fortes capacidades, particularmente em contextos multilíngues e, mais recentemente, em tarefas de linguagem-visual.

Principais Modelos Qwen Acessíveis Gratuitamente via API:

  • Qwen 1.5 Chat (0.5B, 1.8B, 7B, 14B): Uma gama de modelos ajustados para chat disponíveis no nível gratuito do Cloudflare, frequentemente em formato eficiente AWQ (Quantização de Pesos Ativada) adequado para implantações escaláveis.
  • Qwen 2.5 7B Instruct: O modelo de instrução de nova geração 7B. Disponível via OpenRouter.
  • Qwen 2.5 72B Instruct: Um modelo grande e poderoso ajustado para instrução da nova série. Disponível via OpenRouter e testes no Hyperbolic.
  • Qwen 2.5 VL (Vision Language) Instruct (3B, 7B, 32B, 72B): Variantes multimodais capazes de interpretar tanto texto quanto imagens. Disponível em vários tamanhos no OpenRouter, com o 72B também no OVH e testes no Hyperbolic. Essa forte oferta multimodal em vários tamanhos é um recurso chave.
  • Qwen QwQ 32B: Uma variante específica disponível via OpenRouter (incluindo Preview), Groq, Cloudflare e testes no Sambanova e Hyperbolic.
  • Qwen2.5 Coder 32B Instruct: Um modelo grande especializado em tarefas de codificação. Disponível via OpenRouter, OVH, Cloudflare e testes no Hyperbolic e Scaleway.

Destaque da Família Qwen (Acesso Gratuito): A série Qwen 2.5 VL Instruct é um grande destaque devido à sua ampla disponibilidade (OpenRouter, OVH, teste Hyperbolic) em vários tamanhos (3B a 72B) para tarefas de linguagem-visual dentro de um contexto de acesso gratuito. Para codificação, o Qwen2.5 Coder 32B Instruct é uma opção forte e acessível gratuitamente (OpenRouter, OVH, Cloudflare).

Phi da Microsoft: Outro Caminho

Os modelos Phi da Microsoft desafiam a noção de que contagens de parâmetros maiores são sempre necessárias para alto desempenho. Eles são treinados em dados "de qualidade de livro didático" meticulosamente selecionados, permitindo capacidades impressionantes de raciocínio e compreensão de linguagem em modelos relativamente pequenos.

Principais Modelos Phi Acessíveis Gratuitamente via API:

  • Phi-2: Uma demonstração inicial da filosofia do "modelo pequeno", conhecido por seu raciocínio surpreendentemente forte. Disponível via Cloudflare.
  • Phi-3 Mini / Small / Medium Instruct: Disponível em vários tamanhos (Mini ~3.8B, Small ~7B, Medium ~14B de parâmetros) e comprimentos de contexto (4k/8k padrão, 128k estendido). O acesso a esses é principalmente listado via o nível gratuito do GitHub Models. As variantes de 128k de contexto são particularmente notáveis para processar documentos longos.
  • (Experimental/Preview) Phi-3.5/Phi-4: Iterações mais novas listadas no GitHub Models, incluindo MoE, visão e potencialmente modelos base maiores, indicando direções futuras.

Destaque da Família Phi (Acesso Gratuito): As variantes da série Phi-3 (Mini, Small, Medium) com comprimento de contexto 128k, acessíveis via GitHub Models, se destacam. Essa combinação de tamanho compacto do modelo, forte desempenho (relativo ao tamanho) e uma janela de contexto excepcionalmente longa faz delas uma oferta única no cenário de níveis gratuitos, ideal para tarefas que exigem análise de texto extenso.

DeepSeek: a Baleia Pensante

DeepSeek AI encontrou um nicho ao lançar modelos de código aberto que demonstram excepcional proficiência em domínios especializados, como programação e matemática.

Principais Modelos DeepSeek Acessíveis Gratuitamente via API:

  • DeepSeek Coder (6.7B Base/Instruct): Modelos focados na geração de código. A versão instruct está disponível via Cloudflare (AWQ).
  • DeepSeek Math 7B Instruct: Um modelo especificamente ajustado para resolução de problemas matemáticos. Acessível via Cloudflare.
  • DeepSeek V3 / V3 0324: Modelos gerais de chat disponíveis via OpenRouter e testes no Hyperbolic e Sambanova.
  • DeepSeek R1: Um modelo fundamental disponível via OpenRouter e testes no Sambanova e Chutes.
  • DeepSeek R1 Distill (Llama 70B / Qwen 14B / Qwen 32B): Modelos de destilação de conhecimento com o objetivo de capturar a essência de modelos maiores em uma forma mais compacta. Amplamente disponível via OpenRouter, Groq (Llama 70B), OVH (Llama 70B), Cloudflare (Qwen 32B), Together (nível gratuito do Llama 70B), Scaleway (Llama 70B/8B trial) e testes no Sambanova.

Destaque da Família DeepSeek (Acesso Gratuito): O DeepSeek Coder e os modelos DeepSeek Math no Cloudflare são ferramentas especializadas valiosas disponíveis gratuitamente. Além disso, o DeepSeek R1 Distill Llama 70B é notável por sua ampla disponibilidade em vários níveis gratuitos (OpenRouter, Groq, OVH, Together), oferecendo uma versão destilada de um grande modelo.

Outros Modelos Abertos Notáveis via APIs Gratuitas

Além das grandes famílias, vários outros modelos de código aberto finamente ajustados ou especializados aparecem em níveis gratuitos:

  • OpenChat 3.5 0106: Disponível via Cloudflare.
  • Starling LM 7B Beta: Disponível via Cloudflare.
  • SQLCoder 7B 2: Especializado em geração de SQL, disponível via Cloudflare.
  • Dolphin / DeepHermes / Featherless / Rogue Rose / OlympicCoder / QwQ ArliAI: Vários fine-tunes e modelos experimentais acessíveis principalmente através de níveis gratuitos do OpenRouter e/ou Chutes.

Como Acessar e Usar Essas APIs Gratuitas

Ganar acesso normalmente envolve registrar-se em uma ou mais plataformas fornecedoras. Essas plataformas variam de:

  • Agregadores: Como o OpenRouter, que fornece uma interface unificada para modelos de várias fontes, frequentemente incluindo muitas opções gratuitas. Unify atua como um roteador com créditos de teste.
  • Provedores de Nuvem: Google Cloud (Vertex AI), Cloudflare (Workers AI), OVH Cloud (AI Endpoints), Scaleway oferecem níveis gratuitos ou pré-visualizações integradas em seus ecossistemas de nuvem mais amplos. Muitas vezes requerem configuração de conta, às vezes com verificação de pagamento (mesmo para níveis gratuitos).
  • Provedores Dedicados de LLM: Groq (focado em inferência de baixa latência), Mistral, Cerebras, Together oferecem níveis gratuitos ou modelos gratuitos dedicados ao lado de opções pagas. Muitas vezes requerem inscrição, potencialmente verificação por telefone.
  • Integrações de Plataforma: GitHub Models integra o acesso a LLM no fluxo de trabalho do desenvolvedor, com limites vinculados a assinaturas do Copilot.
  • Plataformas de Computação: Modal, Baseten oferecem plataformas de computação gerais onde você paga pelo uso, mas fornecem créditos gratuitos mensais significativos ($30) suficientes para uma experiência substancial com LLM.
  • Provedores de Créditos de Teste: Fireworks, Nebius, Novita, AI21, Upstage, NLP Cloud, Hyperbolic, Sambanova fornecem créditos em dólar ou token iniciais para explorar suas ofertas de modelos.

Considerações Técnicas:

  • Chaves da API: Essenciais para autenticação; mantenha-as seguras.
  • Limites de Taxa: Os níveis gratuitos invariavelmente têm limites (Solicitações por Minuto/Dia, Tokens por Minuto/Mês, solicitações concorrentes). Estes são fatores cruciais para a viabilidade de aplicativos. O README.md detalha isso extensivamente para muitos provedores (por exemplo, limites diários variáveis da Groq, limites granulares de token/solicitação do Google AI Studio, limite simples de RPM da OVH).
  • Quotas: Semelhante aos limites de taxa, mas muitas vezes definem o uso total ao longo de um período (por exemplo, limite de solicitações mensais da Cohere, alocação diária de neurônios do Cloudflare, total de tokens gratuitos da Scaleway).
  • Quantização: Técnicas como AWQ (Quantização de Peso Com Conscientização de Ativação) ou FP8 (Ponto Flutuante de 8 bits) são frequentemente usadas, especialmente no Cloudflare e no GitHub Models, para reduzir o tamanho do modelo e os requisitos computacionais, possibilitando a implantação em infraestrutura gratuita ou econômica. Isso troca um pouco de precisão por eficiência.
  • Janela de Contexto: Varia significativamente (por exemplo, nível gratuito da Cerebras limitado a 8K, Phi-3 oferecendo 128K). Escolha com base nas demandas da tarefa.
  • Privacidade/uso de Dados: Esteja ciente das políticas do provedor, especialmente em relação ao uso de dados para treinamento de modelos (por exemplo, notas do Google AI Studio, plano de Experimento da Mistral).

Tudo Bem, Qual É o Melhor LLM de Código Aberto Para Cada Caso de Uso?

Escolher o "melhor" API LLM de código aberto gratuito depende fortemente da tarefa de desenvolvimento específica:

  • Chat Geral/Siguiendo Instruções: Llama 3.x Instruct, Mistral 7B Instruct, Mixtral 8x7B, Gemma 2/3 Instruct e Qwen 2.5 Instruct são fortes concorrentes. Comece com opções amplamente disponíveis, como Mistral 7B ou Llama 3.1 8B.
  • Codificação: DeepSeek Coder, Qwen2.5 Coder, Llama 4 Scout/Maverick (frequentemente mostram métricas de codificação), Codestral (Mistral, nível gratuito).
  • Multimodal (Texto + Imagem): Llama 3.2 Vision Instruct, Qwen 2.5 VL Instruct series, Phi-3.5 Vision, Aya Vision. Verifique a disponibilidade no OpenRouter, Cloudflare, Together, Google Cloud.
  • Processamento de Longo Contexto: Variantes Phi-3 128k via GitHub Models.
  • Alta Velocidade de Inferência: Groq frequentemente lidera, oferecendo variantes Llama 3, Gemma 2, Mixtral (via Mistral Saba), etc.
  • Poder Máximo (via Níveis Gratuitos/Pré-visualizações): Olhe para os maiores modelos disponíveis, como Llama 3.3 70B (múltiplos provedores), Llama 3.1 405B (trials), Qwen 2.5 72B, potencialmente pré-visualizações experimentais no Google Cloud ou GitHub.
  • Eficiência/Restrições de Recursos: Modelos menores como Llama 3.2 (1B/3B), Phi-3 Mini, Gemma 3 (1B/4B), ou modelos quantizados (AWQ/FP8) no Cloudflare/GitHub são ideais.

Conclusão

O rico ecossistema de LLMs de código aberto combinado com níveis de API gratuitos acessíveis apresenta uma oportunidade sem precedentes para desenvolvedores em 2025. Desde modelos de chat versáteis como Llama 3 e Mistral 7B até motores especializados de codificação como DeepSeek Coder e potências multimodais como Qwen VL, uma vasta gama de capacidades está disponível para experimentação e integração sem custo inicial. Ao compreender os modelos, as plataformas que oferecem acesso e as restrições técnicas associadas, como limites de taxa e janelas de contexto, os desenvolvedores podem efetivamente explorar esses recursos para construir a próxima geração de aplicações impulsionadas por IA. Lembre-se de consultar a documentação do provedor para os últimos detalhes e sempre use esses recursos valiosos de maneira responsável.

💡
Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, tudo-em-um, para sua equipe de desenvolvedores trabalharem juntas com máxima produtividade?

Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!
botão