Más de 30 API LLM gratuitas y de código abierto para desarrolladores

Los poderosos Modelos de Lenguaje Grande (LLMs) de código abierto han cambiado fundamentalmente el acceso a capacidades de IA de vanguardia. Para los desarrolladores, esta revolución se amplifica con el creciente número de plataformas que ofrecen niveles de acceso a API gratuitos o créditos iniciales sustanciales. Esta sinergia elimina barreras de costos significativas, permitiendo a los ingenieros experimentar, prototipar y desplegar características sofisticadas impulsadas por IA utilizando modelos de última generación sin un compromiso financiero inmediato. A medida que miramos hacia 2025, comprender el panorama de LLMs de código abierto de alta calidad accesibles gratuitamente a través de APIs es crucial para la innovación.

💡

¿Quieres una gran herramienta de Pruebas de API que genere documentación de API hermosa?

¿Quieres una plataforma integrada, Todo-en-Uno para que tu equipo de desarrolladores trabaje juntos con máxima productividad?

¡Apidog satisface todas tus demandas y reemplaza a Postman a un precio mucho más asequible!

button

Este artículo proporciona una exploración técnica de más de 30 modelos de este tipo, centrándose en aquellos disponibles a través de proveedores que ofrecen niveles de uso gratuito. Profundizaremos en familias de modelos prominentes, variantes específicas, sus características técnicas (donde se puedan inferir de las listas) y las plataformas que facilitan su acceso gratuito.

(Descargo de responsabilidad: "Acceso gratuito" se refiere a modelos disponibles a través de plataformas que ofrecen niveles sin costo o créditos de prueba significativos, según los datos de origen. La disponibilidad de modelos, la versión específica, los límites de tasa y los términos de servicio están sujetos a cambios por parte de los proveedores. Siempre consulta la documentación oficial del proveedor.)

Llama de Meta: De dónde proviene Locallama

La familia Llama de Meta (Modelo de Lenguaje Grande Meta AI) ha sido fundamental en el impulso del movimiento LLM de código abierto. Cada iteración sucesiva representa avances significativos en arquitectura, datos de entrenamiento y rendimiento general, a menudo estableciendo referencias para modelos abiertos. Muchas plataformas aprovechan varias versiones de Llama dentro de sus niveles gratuitos.

Modelos Llama clave accesibles gratuitamente a través de API:

Llama 2 (7B/13B Chat): Si bien los modelos Llama 2 más antiguos, especialmente las versiones cuantizadas (AWQ, INT8), siguen siendo accesibles, principalmente a través de Cloudflare Workers AI. Estos sirven como líneas base eficientes.
Llama 3 8B Instruct: Un modelo más pequeño altamente valorado de la generación Llama 3, conocido por su equilibrio entre rendimiento y eficiencia computacional. Está ampliamente disponible en niveles gratuitos, incluidos Groq, Cloudflare (estándar y AWQ), OVH, Cerebras y GitHub Models.
Llama 3 70B Instruct: El contraparte más grande en el lanzamiento inicial de Llama 3, que ofrece sustancialmente más capacidad para tareas de razonamiento y generación complejas. Su disponibilidad en niveles gratuitos es menos común, pero se puede encontrar, a menudo con límites más estrictos, en plataformas como Groq y GitHub Models.
Llama 3.1 8B Instruct: Una mejora iterativa sobre el modelo 8B. Su disponibilidad en niveles gratuitos es fuerte, apareciendo en Groq, Cerebras, OVH, Cloudflare (estándar, AWQ, FP8), GitHub Models, Google Cloud (vista previa), Sambanova (prueba), Scaleway (prueba) y Hyperbolic (prueba). La disponibilidad de FP8 en Cloudflare y GitHub destaca la implementación optimizada para entornos de borde o limitados en recursos.
Llama 3.1 70B Instruct: El modelo más grande correspondiente en la serie 3.1. Los puntos de acceso gratuito incluyen OVH, GitHub Models, Google Cloud (vista previa), Scaleway (prueba), Hyperbolic (prueba) y Sambanova (prueba).
Llama 3.1 405B (Base/Instruct): Representando la cúspide de la serie Llama 3.1 en términos de recuento de parámetros. El acceso a través de pruebas gratuitas se observa en plataformas como Hyperbolic y Sambanova Cloud. GitHub Models también ofrece acceso. Esta escala generalmente implica recursos computacionales significativos.
Llama 3.2 (1B/3B Instruct): Modelos pequeños, altamente eficientes y más nuevos que apuntan a escenarios donde el uso de recursos es primordial. Disponibles a través de Cloudflare y pruebas gratuitas en Hyperbolic y Sambanova.
Llama 3.2 (11B/90B) Vision Instruct: Variantes multimodales que integran capacidades visuales. La versión 11B está notablemente disponible en el nivel gratuito dedicado de Together y Cloudflare, mientras que la versión 90B, mucho más grande, está listada como gratuita durante la vista previa en Google Cloud y disponible a través de pruebas en Sambanova. Esto marca una expansión significativa en tareas multimodales para la familia Llama.
Llama 3.3 70B Instruct: Un modelo más reciente, grande y ajustado a instrucciones. Su disponibilidad en niveles gratuitos es bastante buena, ofrecido por Cerebras, Groq (con límites diarios más bajos que 8B), OVH, Together (nivel gratuito dedicado), Google Cloud (vista previa), GitHub Models, y pruebas en Hyperbolic y Sambanova.
Llama 4 Scout / Maverick Instruct: Los modelos de vista previa de la próxima generación de Meta. Scout parece centrarse en la eficiencia (16E se refiere probablemente a los parámetros Mixture-of-Experts), mientras que Maverick (128E) apunta a un rendimiento más alto. Ambos están disponibles a través de Groq (con límites diarios más bajos), Cerebras (límite de contexto de 8K), Google Cloud (vista previa), GitHub Models (variante FP8 para Maverick) y pruebas en Sambanova y Chutes.
Llama Guard (7B / 3 8B): Modelos diseñados específicamente para tareas de seguridad de IA como filtrado de entrada/salida y moderación de contenido. Disponibles a través de Cloudflare (AWQ 7B) y Groq / Sambanova (prueba) / GitHub Models (3 8B).

Destacado de la familia Llama (Acceso a nivel gratuito): Llama 3.3 70B Instruct destaca por su combinación de ser un modelo reciente, grande y de alto rendimiento con disponibilidad relativamente amplia en múltiples niveles gratuitos (Cerebras, Groq, OVH, Together) y vistas previas/pruebas (Google Cloud, GitHub, Hyperbolic, Sambanova). Para tareas multimodales, la Llama 3.2 11B Vision Instruct en el nivel gratuito de Together y Cloudflare es una opción clave accesible. Para máxima eficiencia, las variantes Llama 3.1 8B Instruct (incluidas las cuantizadas AWQ/FP8) ofrecen amplia disponibilidad.

Mistral AI: De Francia con Amor

Mistral AI ganó rápidamente prominencia al lanzar modelos de pesos abiertos que demostraron un rendimiento excepcional en relación con sus recuentos de parámetros, empleando a menudo innovaciones arquitectónicas como Atención por Consulta Agrupada (GQA) y Atención de Ventana Deslizante (SWA).

Modelos clave de Mistral accesibles gratuitamente a través de API:

Mistral 7B Instruct (v0.1, v0.2, v0.3): Un modelo fundamental que estableció altos estándares para la clase de parámetros 7B. Sus diversas versiones están ampliamente disponibles en niveles gratuitos, incluidos OpenRouter, Cloudflare (v0.1, v0.2 estándar/AWQ/LoRA), OVH (v0.3) y pruebas en Sambanova (ajuste fino de E5-Mistral). Su ubicuidad lo convierte en un excelente punto de partida.
Mixtral 8x7B Instruct v0.1: Un modelo de Alta Eficiencia Mixto de Expertos (SMoE). Cada token solo procesa una fracción (típicamente dos 'expertos' de 7B parámetros cada uno) del total de parámetros, proporcionando eficiencia computacional más cercana a un modelo denso de ~14B, pero con un rendimiento que a menudo rivaliza con modelos mucho más grandes. Accesible a través del nivel beta gratuito de OVH.
Mistral Nemo: Una nueva arquitectura de Mistral. Disponible a través de OpenRouter, OVH, GitHub Models y la prueba de Scaleway.
Mistral Small 3.1 24B Instruct: Un modelo propietario de Mistral, pero el acceso se proporciona a través de niveles gratuitos en OpenRouter y Cloudflare, y mediante pruebas en Scaleway y GitHub Models. Nota: Aunque es potente, no es estrictamente un modelo de código abierto, pero se incluye debido a la disponibilidad de API gratuita listada.
Zephyr 7B Beta: Un ajuste fino popular de Mistral 7B por HuggingFace H4, conocido por su mejor seguimiento de instrucciones y capacidades de chat. Disponible a través de OpenRouter y Cloudflare (AWQ).
Hermes 2 Pro Mistral 7B: Otro ajuste fino bien considerado basado en Mistral 7B. Accesible a través del nivel gratuito de Cloudflare.
OpenHermes 2.5 Mistral 7B: Otro ajuste fino de Mistral 7B, disponible a través de Cloudflare (AWQ).

Destacado de la familia Mistral (Acceso a nivel gratuito): Mistral 7B Instruct (cualquier versión) sigue siendo un destacado debido a su historial comprobado, excelente rendimiento por parámetro y disponibilidad extremadamente amplia en numerosos proveedores de API gratuitos (OpenRouter, Cloudflare, OVH). Para los desarrolladores que buscan explorar la arquitectura SMoE, el Mixtral 8x7B Instruct en el nivel gratuito de OVH es una oferta clave.

Google Gemma: Pequeño pero Poderoso

Gemma representa la familia de modelos abiertos de Google, desarrollados utilizando investigación y tecnología compartidas con sus modelos insignia Gemini. Ofrecen una variedad de tamaños y están diseñados para el desarrollo de IA responsable.

Modelos clave de Gemma accesibles gratuitamente a través de API:

Gemma 2B Instruct: Un modelo más pequeño adecuado para tareas menos exigentes o entornos limitados en recursos. Disponible a través de Cloudflare (variante LoRA).
Gemma 7B Instruct: Un modelo de tamaño mediano capaz. Disponible a través de Cloudflare (variantes estándar y LoRA).
Gemma 2 9B Instruct: El sucesor del modelo original 7B, que ofrece capacidades mejoradas. Accesible a través de los niveles gratuitos de OpenRouter y Groq.
Gemma 3 (1B, 4B, 12B, 27B) Instruct: La última generación, que abarca una amplia gama de tamaños. Los modelos más pequeños de 1B y 4B están en OpenRouter y Google AI Studio. El modelo de 12B está en OpenRouter, Google AI Studio y Cloudflare. El modelo más grande de 27B está disponible a través de OpenRouter, Google AI Studio y la prueba de Scaleway. Google AI Studio proporciona cuotas generosas gratuitas para estos.

Destacado de la familia Gemma (Acceso a nivel gratuito): La serie Gemma 3, particularmente el 12B Instruct y el 27B Instruct, representa los últimos avances disponibles gratuitamente a través de OpenRouter y Google AI Studio (con altos límites). La disponibilidad generalizada en tamaños (1B a 27B) dentro de la línea Gemma 3 en niveles gratuitos (OpenRouter/Google AI Studio/Cloudflare/Scaleway) la convierte en una familia versátil para la experimentación. El Gemma 2 9B Instruct en Groq también ofrece acceso a inferencia a alta velocidad.

Qwen de Alibaba: ¿El Mejor Multimodal y Multilingüe LLM de Código Abierto?

Los modelos Qwen (Tongyi Qianwen) de Alibaba han demostrado fuertes capacidades, particularmente en contextos multilingües y, más recientemente, en tareas de visión-lenguaje.

Modelos clave de Qwen accesibles gratuitamente a través de API:

Qwen 1.5 Chat (0.5B, 1.8B, 7B, 14B): Una gama de modelos ajustados para chat disponibles en el nivel gratuito de Cloudflare, a menudo en formato AWQ (Cuantización de Peso Consciente de Activación), adecuado para implementaciones escalables.
Qwen 2.5 7B Instruct: El modelo de instrucción más reciente de la generación 7B. Disponible a través de OpenRouter.
Qwen 2.5 72B Instruct: Un modelo grande y poderoso ajustado para instrucciones de la nueva serie. Disponible a través de OpenRouter y pruebas en Hyperbolic.
Qwen 2.5 VL (Visión Lenguaje) Instruct (3B, 7B, 32B, 72B): Variantes multimodales capaces de interpretar tanto texto como imágenes. Disponibles en varios tamaños en OpenRouter, con el 72B también en OVH y pruebas en Hyperbolic. Esta fuerte oferta multimodal en varios tamaños es una característica clave.
Qwen QwQ 32B: Una variante específica disponible a través de OpenRouter (incluida Vista previa), Groq, Cloudflare y pruebas en Sambanova y Hyperbolic.
Qwen2.5 Coder 32B Instruct: Un modelo grande especializado en tareas de codificación. Disponible a través de OpenRouter, OVH, Cloudflare y pruebas en Hyperbolic y Scaleway.

Destacado de la familia Qwen (Acceso a nivel gratuito): La serie Qwen 2.5 VL Instruct es un gran destacado debido a su amplia disponibilidad (OpenRouter, OVH, prueba en Hyperbolic) en múltiples tamaños (3B a 72B) para tareas de visión-lenguaje en un contexto de acceso gratuito. Para codificación, el Qwen2.5 Coder 32B Instruct es una opción fuerte y accesible gratuitamente (OpenRouter, OVH, Cloudflare).

Phi de Microsoft: Otro Camino

Los modelos Phi de Microsoft desafían la noción de que se necesitan recuentos de parámetros más grandes para un alto rendimiento. Se entrenan con datos meticulosamente curados de "calidad de libro de texto", lo que permite capacidades impresionantes de razonamiento y comprensión del lenguaje en modelos relativamente pequeños.

Modelos clave de Phi accesibles gratuitamente a través de API:

Phi-2: Una demostración temprana de la filosofía del "modelo pequeño", conocido por su sorprendente razonamiento fuerte. Disponible a través de Cloudflare.
Phi-3 Mini / Small / Medium Instruct: Disponible en varios tamaños (Mini ~3.8B, Small ~7B, Medium ~14B parámetros) y longitudes de contexto (4k/8k estándar, 128k extendido). El acceso a estos está principalmente listado a través del nivel gratuito de GitHub Models. Las variantes de contexto de 128k son particularmente notables para procesar documentos largos.
(Experimental/Vista previa) Phi-3.5/Phi-4: Iteraciones más nuevas listadas en GitHub Models, incluyendo MoE, visión y potencialmente modelos base más grandes, indicando direcciones futuras.

Destacado de la familia Phi (Acceso a nivel gratuito): La serie Phi-3 (Mini, Small, Medium) con longitud de contexto de 128k variantes, accesibles a través de GitHub Models, se destaca. Esta combinación de tamaño compacto de modelo, fuerte rendimiento (relativo al tamaño) y ventana de contexto excepcionalmente larga los hace ofertas únicas en el paisaje de niveles gratuitos, ideales para tareas que requieren análisis de texto extenso.

DeepSeek: la Ballena Pensante

DeepSeek AI ha encontrado un nicho al lanzar modelos de código abierto que demuestran una excepcional competencia en dominios especializados como programación y matemáticas.

Modelos clave de DeepSeek accesibles gratuitamente a través de API:

DeepSeek Coder (6.7B Base/Instruct): Modelos enfocados en la generación de código. La versión instruct está disponible a través de Cloudflare (AWQ).
DeepSeek Math 7B Instruct: Un modelo específicamente ajustado para la resolución de problemas matemáticos. Accesible a través de Cloudflare.
DeepSeek V3 / V3 0324: Modelos de chat generales disponibles a través de OpenRouter y pruebas en Hyperbolic y Sambanova.
DeepSeek R1: Un modelo fundamental disponible a través de OpenRouter y pruebas en Sambanova y Chutes.
DeepSeek R1 Distill (Llama 70B / Qwen 14B / Qwen 32B): Modelos de destilación de conocimiento que buscan capturar la esencia de modelos más grandes en una forma más compacta. Ampliamente disponibles a través de OpenRouter, Groq (Llama 70B), OVH (Llama 70B), Cloudflare (Qwen 32B), Together (Llama 70B nivel gratuito), Scaleway (Llama 70B/8B prueba), y pruebas en Sambanova.

Destacado de la familia DeepSeek (Acceso a nivel gratuito): Los modelos DeepSeek Coder y DeepSeek Math en Cloudflare son herramientas especializadas valiosas disponibles de forma gratuita. Además, el DeepSeek R1 Distill Llama 70B es notable por su amplia disponibilidad en múltiples niveles gratuitos (OpenRouter, Groq, OVH, Together), ofreciendo una versión destilada de un modelo grande.

Otros Modelos Abiertos Notables a través de APIs Gratuitas

Más allá de las principales familias, varios otros modelos ajustados o especializados aparecen en niveles gratuitos:

OpenChat 3.5 0106: Disponible a través de Cloudflare.
Starling LM 7B Beta: Disponible a través de Cloudflare.
SQLCoder 7B 2: Especializado en generación de SQL, disponible a través de Cloudflare.
Dolphin / DeepHermes / Featherless / Rogue Rose / OlympicCoder / QwQ ArliAI: Varios ajustes finos y modelos experimentales accesibles principalmente a través de OpenRouter y/o Chutes niveles gratuitos.

Cómo Acceder y Usar Estas APIs Gratuitas

Ganar acceso generalmente implica registrarse en una o más plataformas de proveedores. Estas plataformas van desde:

Agregadores: Como OpenRouter, que proporciona una interfaz unificada a modelos de varias fuentes, a menudo incluyendo muchas opciones gratuitas. Unify actúa como un enrutador con créditos de prueba.
Proveedores de Nube: Google Cloud (Vertex AI), Cloudflare (Workers AI), OVH Cloud (Puntos de Finalización de IA), Scaleway ofrecen niveles gratuitos o vistas previas integradas en sus ecosistemas de nube más amplios. A menudo requieren configuración de cuenta, a veces con verificación de pago (incluso para niveles gratuitos).
Proveedores de LLM Dedicados: Groq (enfocado en inferencia de baja latencia), Mistral, Cerebras, Together ofrecen niveles gratuitos o modelos gratuitos dedicados junto con opciones pagadas. A menudo requieren registro, potencialmente verificación de teléfono.
Integraciones de Plataforma: GitHub Models integra el acceso a LLM en el flujo de trabajo del desarrollador, con límites vinculados a suscripciones de Copilot.
Plataformas de Cómputo: Modal, Baseten ofrecen plataformas de cómputo generales donde pagas por uso, pero proporcionan créditos mensuales significativos gratuitos ($30) suficientes para una considerable experimentación con LLM.
Proveedores de Créditos de Prueba: Fireworks, Nebius, Novita, AI21, Upstage, NLP Cloud, Hyperbolic, Sambanova proporcionan créditos iniciales en dólares o tokens para explorar sus ofertas de modelos.

Consideraciones Técnicas:

Claves API: Esenciales para la autenticación; manténlas seguras.
Límites de Tasa: Los niveles gratuitos invariablemente tienen límites (Solicitudes por Minuto/Día, Tokens por Minuto/Mes, solicitudes concurrentes). Estos son factores cruciales para la viabilidad de la aplicación. El README.md detalla esto extensamente para muchos proveedores (por ejemplo, los límites diarios variables de Groq, los límites granulares de tokens/solicitudes de Google AI Studio, el simple límite de RPM de OVH).
Cuotas: Similar a los límites de tasa pero a menudo definen el uso total durante un período (por ejemplo, el límite de solicitudes mensuales de Cohere, la asignación diaria de neuronas de Cloudflare, los tokens totales gratuitos de Scaleway).
Cuantización: Técnicas como AWQ (Cuantización de Peso Consciente de Activación) o FP8 (Punto Flotante de 8 bits) se utilizan con frecuencia, especialmente en Cloudflare y GitHub Models, para reducir el tamaño del modelo y los requisitos computacionales, permitiendo la implementación en infraestructura gratuita o económica. Esto intercambia algo de precisión por eficiencia.
Ventanas de Contexto: Varían significativamente (por ejemplo, el nivel gratuito de Cerebras limitado a 8K, Phi-3 ofreciendo 128K). Elige según los requisitos de la tarea.
Privacidad/Uso de Datos: Sé consciente de las políticas del proveedor, especialmente con respecto al uso de datos para el entrenamiento del modelo (por ejemplo, notas de Google AI Studio, plan de Mistral Experiment).

Está Bien, ¿Cuál es el Mejor LLM de Código Abierto para Cada Caso de Uso?

Elegir el "mejor" API LLM de código abierto gratuito depende en gran medida de la tarea de desarrollo específica:

Chat General/Siguimiento de Instrucciones: Llama 3.x Instruct, Mistral 7B Instruct, Mixtral 8x7B, Gemma 2/3 Instruct, Qwen 2.5 Instruct son fuertes contendientes. Comienza con opciones ampliamente disponibles como Mistral 7B o Llama 3.1 8B.
Codificación: DeepSeek Coder, Qwen2.5 Coder, Llama 4 Scout/Maverick (a menudo muestran puntos de referencia de codificación), Codestral (Mistral, nivel gratuito).
Multimodal (Texto + Imagen): Llama 3.2 Vision Instruct, serie Qwen 2.5 VL Instruct, Phi-3.5 Vision, Aya Vision. Verifica la disponibilidad en OpenRouter, Cloudflare, Together, Google Cloud.
Procesamiento de Contexto Largo: Variantes Phi-3 128k a través de GitHub Models.
Alta Velocidad de Inferencia: Groq a menudo lidera, ofreciendo variantes de Llama 3, Gemma 2, Mixtral (a través de Mistral Saba), etc.
Poder Máximo (a través de Niveles Gratuitos/Vistas Previas): Busca los modelos más grandes disponibles como Llama 3.3 70B (múltiples proveedores), Llama 3.1 405B (pruebas), Qwen 2.5 72B, potencialmente vistas previas experimentales en Google Cloud o GitHub.
Eficiencia/Límites de Recursos: Modelos más pequeños como Llama 3.2 (1B/3B), Phi-3 Mini, Gemma 3 (1B/4B), o modelos cuantizados (AWQ/FP8) en Cloudflare/GitHub son ideales.

Conclusión

El rico ecosistema de LLMs de código abierto combinado con niveles de API gratuitos accesibles presenta una oportunidad sin precedentes para los desarrolladores en 2025. Desde modelos de chat versátiles como Llama 3 y Mistral 7B hasta motores de codificación especializados como DeepSeek Coder y potencias multimodales como Qwen VL, hay una vasta gama de capacidades disponibles para la experimentación y la integración sin costo inicial. Al comprender los modelos, las plataformas que ofrecen acceso y las restricciones técnicas asociadas como límites de tasa y ventanas de contexto, los desarrolladores pueden aprovechar efectivamente estos recursos para construir la próxima generación de aplicaciones impulsadas por IA. Recuerda consultar la documentación del proveedor para obtener los últimos detalles y siempre utiliza estos valiosos recursos de manera responsable.

💡

button