30+ API de LLM gratuits et open source pour les développeurs

Les puissants modèles de langage volumineux (LLM) open-source ont fondamentalement changé l'accès aux capacités d'IA de pointe. Pour les développeurs, cette révolution est amplifiée par le nombre croissant de plateformes offrant des niveaux d'accès API gratuits ou des crédits initiaux substantiels. Cette synergie élimine d'importantes barrières financières, permettant aux ingénieurs d'expérimenter, de prototyper et de déployer des fonctionnalités sophistiquées basées sur l'IA en utilisant des modèles de pointe sans engagement financier immédiat. Alors que nous nous tournons vers 2025, la compréhension du paysage des LLM open-source de haute qualité et accessibles gratuitement via des API est cruciale pour l'innovation.

💡

Vous voulez un excellent outil de test d'API qui génère une belle documentation API ?

Vous voulez une plateforme intégrée, tout-en-un, pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !

button

Cet article fournit une exploration technique de plus de 30 de ces modèles, en se concentrant sur ceux disponibles via des fournisseurs répertoriés avec des niveaux d'utilisation gratuits. Nous allons approfondir les familles de modèles importants, les variantes spécifiques, leurs caractéristiques techniques (lorsqu'elles sont déductibles des listes) et les plateformes facilitant leur accès gratuit.

(Avertissement : « Accès gratuit » concerne les modèles disponibles via des plateformes offrant des niveaux sans frais ou des crédits d'essai importants, basés sur les données sources. La disponibilité des modèles, le versionnement spécifique, les limites de débit et les conditions d'utilisation sont susceptibles d'être modifiés par les fournisseurs. Consultez toujours la documentation officielle du fournisseur.)

Llama de Meta : d'où vient Localllama

La famille Llama (Large Language Model Meta AI) de Meta a joué un rôle essentiel dans la conduite du mouvement LLM open-source. Chaque itération successive représente des avancées significatives en matière d'architecture, de données d'entraînement et de performances globales, établissant souvent des références pour les modèles ouverts. De nombreuses plateformes exploitent diverses versions de Llama dans leurs niveaux gratuits.

Principaux modèles Llama accessibles gratuitement via l'API :

Llama 2 (7B/13B Chat) : Bien que plus anciens, les modèles Llama 2 fondamentaux, en particulier les versions quantifiées (AWQ, INT8), restent accessibles, principalement via Cloudflare Workers AI. Ceux-ci servent de bases efficaces.
Llama 3 8B Instruct : Un modèle plus petit très apprécié de la génération Llama 3, connu pour son équilibre entre performances et efficacité computationnelle. Il est largement disponible sur les niveaux gratuits, notamment Groq, Cloudflare (standard et AWQ), OVH, Cerebras et GitHub Models.
Llama 3 70B Instruct : La contrepartie plus grande de la version initiale de Llama 3, offrant beaucoup plus de capacité pour les tâches de raisonnement et de génération complexes. Sa disponibilité sur les niveaux gratuits est moins courante, mais peut être trouvée, souvent avec des limites plus strictes, sur des plateformes comme Groq et GitHub Models.
Llama 3.1 8B Instruct : Une amélioration itérative du modèle 8B. Sa disponibilité sur les niveaux gratuits est forte, apparaissant sur Groq, Cerebras, OVH, Cloudflare (standard, AWQ, FP8), GitHub Models, Google Cloud (aperçu), Sambanova (essai), Scaleway (essai) et Hyperbolic (essai). La disponibilité FP8 sur Cloudflare et GitHub met en évidence un déploiement optimisé pour les environnements périphériques ou à ressources limitées.
Llama 3.1 70B Instruct : Le modèle plus grand correspondant de la série 3.1. Les points d'accès gratuits incluent OVH, GitHub Models, Google Cloud (aperçu), Scaleway (essai), Hyperbolic (essai) et Sambanova (essai).
Llama 3.1 405B (Base/Instruct) : Représentant le summum de la série Llama 3.1 en termes de nombre de paramètres. L'accès via des essais gratuits est noté sur des plateformes comme Hyperbolic et Sambanova Cloud. GitHub Models répertorie également l'accès. Cette échelle implique généralement des ressources informatiques importantes.
Llama 3.2 (1B/3B Instruct) : Nouveaux modèles petits et très efficaces ciblant les scénarios où l'utilisation des ressources est primordiale. Disponible via Cloudflare et des essais gratuits sur Hyperbolic et Sambanova.
Llama 3.2 (11B/90B) Vision Instruct : Des variantes multimodales intégrant des capacités de vision. La version 11B est notamment disponible sur le niveau gratuit dédié de Together et Cloudflare, tandis que la version 90B beaucoup plus grande est répertoriée comme gratuite pendant l'aperçu sur Google Cloud et disponible via des essais sur Sambanova. Cela marque une expansion significative dans les tâches multimodales pour la famille Llama.
Llama 3.3 70B Instruct : Un modèle plus récent de grande taille avec réglage d'instructions. Sa disponibilité sur les niveaux gratuits est assez bonne, offerte par Cerebras, Groq (avec des limites quotidiennes inférieures à 8B), OVH, Together (niveau gratuit dédié), Google Cloud (aperçu), GitHub Models et des essais sur Hyperbolic et Sambanova.
Llama 4 Scout / Maverick Instruct : Les modèles d'aperçu de nouvelle génération de Meta. Scout semble axé sur l'efficacité (16E fait probablement référence aux paramètres Mixture-of-Experts), tandis que Maverick (128E) cible des performances supérieures. Les deux sont disponibles via Groq (avec des limites quotidiennes inférieures), Cerebras (limite de contexte de 8 K), Google Cloud (aperçu), GitHub Models (variante FP8 pour Maverick) et des essais sur Sambanova et Chutes.
Llama Guard (7B / 3 8B) : Modèles spécialement conçus pour les tâches de sécurité de l'IA, telles que le filtrage des entrées/sorties et la modération de contenu. Disponible via Cloudflare (AWQ 7B) et Groq / Sambanova (essai) / GitHub Models (3 8B).

Point fort de la famille Llama (accès au niveau gratuit) : Llama 3.3 70B Instruct se démarque en raison de sa combinaison d'être un modèle récent, volumineux et performant avec une disponibilité relativement large sur plusieurs niveaux gratuits (Cerebras, Groq, OVH, Together) et des aperçus/essais (Google Cloud, GitHub, Hyperbolic, Sambanova). Pour les tâches multimodales, le Llama 3.2 11B Vision Instruct sur le niveau gratuit de Together et Cloudflare est une option accessible clé. Pour une efficacité maximale, les variantes Llama 3.1 8B Instruct (y compris AWQ/FP8 quantifié) offrent une large disponibilité.

Mistral AI : From French with Love

Mistral AI a rapidement gagné en importance en publiant des modèles à poids ouvert démontrant des performances exceptionnelles par rapport à leurs nombres de paramètres, employant souvent des innovations architecturales comme Grouped-Query Attention (GQA) et Sliding Window Attention (SWA).

Principaux modèles Mistral accessibles gratuitement via l'API :

Mistral 7B Instruct (v0.1, v0.2, v0.3) : Un modèle fondamental qui a établi des références élevées pour la classe de paramètres 7B. Ses différentes versions sont largement disponibles sur les niveaux gratuits, notamment OpenRouter, Cloudflare (v0.1, v0.2 standard/AWQ/LoRA), OVH (v0.3) et des essais sur Sambanova (E5-Mistral fine-tune). Son ubiquité en fait un excellent point de départ.
Mixtral 8x7B Instruct v0.1 : Un modèle Sparse Mixture-of-Experts (SMoE) hautes performances. Chaque jeton ne traite qu'une fraction (généralement deux « experts » de 7 milliards de paramètres chacun) du nombre total de paramètres, offrant une efficacité computationnelle plus proche d'un modèle dense de ~14 milliards, mais des performances rivalisant souvent avec des modèles beaucoup plus grands. Accessible via le niveau bêta gratuit d'OVH.
Mistral Nemo : Une architecture plus récente de Mistral. Disponible via OpenRouter, OVH, GitHub Models et l'essai de Scaleway.
Mistral Small 3.1 24B Instruct : Un modèle propriétaire de Mistral, mais l'accès est fourni via des niveaux gratuits sur OpenRouter et Cloudflare, et via des essais sur Scaleway et GitHub Models. Remarque : Bien que puissant, il ne s'agit pas strictement d'un modèle open-source, mais il est inclus en raison de la disponibilité gratuite de l'API répertoriée.
Zephyr 7B Beta : Une mise au point populaire de Mistral 7B par HuggingFace H4, connue pour l'amélioration du suivi des instructions et des capacités de discussion. Disponible via OpenRouter et Cloudflare (AWQ).
Hermes 2 Pro Mistral 7B : Une autre mise au point bien considérée basée sur Mistral 7B. Accessible via le niveau gratuit de Cloudflare.
OpenHermes 2.5 Mistral 7B : Encore une autre mise au point de Mistral 7B, disponible via Cloudflare (AWQ).

Point fort de la famille Mistral (accès au niveau gratuit) : Mistral 7B Instruct (toute version) reste exceptionnel en raison de ses antécédents éprouvés, de ses excellentes performances par paramètre et de sa très large disponibilité auprès de nombreux fournisseurs d'API gratuits (OpenRouter, Cloudflare, OVH). Pour les développeurs recherchant l'exploration de l'architecture SMoE, le Mixtral 8x7B Instruct sur le niveau gratuit d'OVH est une offre clé.

Google Gemma : Small but Mighty

Gemma représente la famille de modèles ouverts de Google, développés à l'aide de la recherche et de la technologie partagées avec leurs modèles phares Gemini. Ils offrent une gamme de tailles et sont conçus pour un développement d'IA responsable.

Principaux modèles Gemma accessibles gratuitement via l'API :

Gemma 2B Instruct : Un modèle plus petit adapté aux tâches moins exigeantes ou aux environnements à ressources limitées. Disponible via Cloudflare (variante LoRA).
Gemma 7B Instruct : Un modèle de taille moyenne performant. Disponible via Cloudflare (variantes standard et LoRA).
Gemma 2 9B Instruct : Le successeur du modèle 7B d'origine, offrant des capacités améliorées. Accessible via les niveaux gratuits OpenRouter et Groq.
Gemma 3 (1B, 4B, 12B, 27B) Instruct : La dernière génération, couvrant une large gamme de tailles. Les modèles 1B et 4B plus petits sont sur OpenRouter et Google AI Studio. Le 12B est sur OpenRouter, Google AI Studio et Cloudflare. Le modèle 27B plus grand est disponible via OpenRouter, Google AI Studio et l'essai de Scaleway. Google AI Studio fournit de généreux quotas gratuits pour ceux-ci.

Point fort de la famille Gemma (accès au niveau gratuit) : La série Gemma 3, en particulier les 12B Instruct et 27B Instruct, représente les dernières avancées disponibles gratuitement via OpenRouter et Google AI Studio (avec des limites élevées). La large disponibilité sur plusieurs tailles (1B à 27B) au sein de la gamme Gemma 3 sur les niveaux gratuits (OpenRouter/Google AI Studio/Cloudflare/Scaleway) en fait une famille polyvalente pour l'expérimentation. Le Gemma 2 9B Instruct sur Groq offre également un accès à une inférence à grande vitesse.

Qwen d'Alibaba : le meilleur LLM multimodal et multilingue open source ?

Les modèles Qwen (Tongyi Qianwen) d'Alibaba ont démontré de solides capacités, en particulier dans les contextes multilingues et, plus récemment, dans les tâches de langage visuel.

Principaux modèles Qwen accessibles gratuitement via l'API :

Qwen 1.5 Chat (0.5B, 1.8B, 7B, 14B) : Une gamme de modèles adaptés au chat disponibles sur le niveau gratuit de Cloudflare, souvent au format AWQ (Activation-aware Weight Quantization) efficace, adapté aux déploiements évolutifs.
Qwen 2.5 7B Instruct : Le dernier modèle 7B de suivi des instructions de génération. Disponible via OpenRouter.
Qwen 2.5 72B Instruct : Un modèle de grande taille et puissant avec réglage d'instructions de la nouvelle série. Disponible via OpenRouter et des essais sur Hyperbolic.
Qwen 2.5 VL (Vision Language) Instruct (3B, 7B, 32B, 72B) : Des variantes multimodales capables d'interpréter à la fois du texte et des images. Disponible en différentes tailles sur OpenRouter, avec le 72B également sur OVH et des essais sur Hyperbolic. Cette solide offre multimodale sur plusieurs tailles est une caractéristique clé.
Qwen QwQ 32B : Une variante spécifique disponible via OpenRouter (y compris Aperçu), Groq, Cloudflare et des essais sur Sambanova et Hyperbolic.
Qwen2.5 Coder 32B Instruct : Un grand modèle spécialisé pour les tâches de codage. Disponible via OpenRouter, OVH, Cloudflare et des essais sur Hyperbolic et Scaleway.

Point fort de la famille Qwen (accès au niveau gratuit) : La série Qwen 2.5 VL Instruct est un point fort majeur en raison de sa large disponibilité (OpenRouter, OVH, essai Hyperbolic) sur plusieurs tailles (3B à 72B) pour les tâches de langage visuel dans un contexte d'accès gratuit. Pour le codage, le Qwen2.5 Coder 32B Instruct est une option solide et accessible gratuitement (OpenRouter, OVH, Cloudflare).

Phi de Microsoft : une autre voie

Les modèles Phi de Microsoft remettent en question l'idée que des nombres de paramètres plus importants sont toujours nécessaires pour des performances élevées. Ils sont formés sur des données « qualité manuel » méticuleusement organisées, ce qui permet d'obtenir des capacités de raisonnement et de compréhension du langage impressionnantes dans des modèles relativement petits.

Principaux modèles Phi accessibles gratuitement via l'API :

Phi-2 : Une première démonstration de la philosophie du « petit modèle », connue pour un raisonnement étonnamment fort. Disponible via Cloudflare.
Phi-3 Mini / Small / Medium Instruct : Disponible en différentes tailles (Mini ~3,8B, Small ~7B, Medium ~14B paramètres) et longueurs de contexte (4 k/8 k standard, 128 k étendu). L'accès à ceux-ci est principalement répertorié via le niveau gratuit de GitHub Models. Les variantes de contexte de 128 k sont particulièrement remarquables pour le traitement de longs documents.
(Expérimental/Aperçu) Phi-3.5/Phi-4 : Itérations plus récentes répertoriées sur GitHub Models, y compris MoE, vision et potentiellement des modèles de base plus grands, indiquant les orientations futures.

Point fort de la famille Phi (accès au niveau gratuit) : La série Phi-3 (Mini, Small, Medium) avec des variantes de longueur de contexte de 128 k, accessibles via GitHub Models, se démarque. Cette combinaison de taille de modèle compacte, de performances solides (par rapport à la taille) et de fenêtre de contexte exceptionnellement longue en fait des offres uniques dans le paysage des niveaux gratuits, idéales pour les tâches nécessitant l'analyse de textes volumineux.

DeepSeek : le Thinking Whale

DeepSeek AI s'est taillé une niche en publiant des modèles open-source démontrant une compétence exceptionnelle dans des domaines spécialisés comme la programmation et les mathématiques.

Principaux modèles DeepSeek accessibles gratuitement via l'API :

DeepSeek Coder (6.7B Base/Instruct) : Modèles de génération de code ciblés. La version instruct est disponible via Cloudflare (AWQ).
DeepSeek Math 7B Instruct : Un modèle spécialement mis au point pour la résolution de problèmes mathématiques. Accessible via Cloudflare.
DeepSeek V3 / V3 0324 : Modèles de discussion généraux disponibles via OpenRouter et des essais sur Hyperbolic et Sambanova.
DeepSeek R1 : Un modèle fondamental disponible via OpenRouter et des essais sur Sambanova et Chutes.
DeepSeek R1 Distill (Llama 70B / Qwen 14B / Qwen 32B) : Modèles de distillation des connaissances visant à capturer l'essence de modèles plus grands sous une forme plus compacte. Largement disponible via OpenRouter, Groq (Llama 70B), OVH (Llama 70B), Cloudflare (Qwen 32B), Together (niveau gratuit Llama 70B), Scaleway (essai Llama 70B/8B) et des essais sur Sambanova.

Point fort de la famille DeepSeek (accès au niveau gratuit) : Les modèles DeepSeek Coder et DeepSeek Math sur Cloudflare sont des outils spécialisés précieux disponibles gratuitement. De plus, le DeepSeek R1 Distill Llama 70B est remarquable pour sa large disponibilité sur plusieurs niveaux gratuits (OpenRouter, Groq, OVH, Together), offrant une version distillée d'un grand modèle.

Autres modèles ouverts notables via des API gratuites

Au-delà des principales familles, plusieurs autres modèles ouverts affinés ou spécialisés apparaissent sur les niveaux gratuits :

OpenChat 3.5 0106 : Disponible via Cloudflare.
Starling LM 7B Beta : Disponible via Cloudflare.
SQLCoder 7B 2 : Spécialisé pour la génération SQL, disponible via Cloudflare.
Dolphin / DeepHermes / Featherless / Rogue Rose / OlympicCoder / QwQ ArliAI : Diverses mises au point et modèles expérimentaux accessibles principalement via OpenRouter et/ou les niveaux gratuits Chutes.

Comment accéder et utiliser ces API gratuites

L'accès implique généralement de s'inscrire auprès d'une ou plusieurs plateformes de fournisseurs. Ces plateformes vont de :

Agrégateurs : Comme OpenRouter, fournissant une interface unifiée vers des modèles provenant de diverses sources, incluant souvent de nombreuses options gratuites. Unify agit comme un routeur avec des crédits d'essai.
Fournisseurs de cloud : Google Cloud (Vertex AI), Cloudflare (Workers AI), OVH Cloud (AI Endpoints), Scaleway offrent des niveaux gratuits ou des aperçus intégrés à leurs écosystèmes cloud plus larges. Nécessitent souvent une configuration de compte, parfois avec vérification du paiement (même pour les niveaux gratuits).
Fournisseurs LLM dédiés : Groq (axé sur l'inférence à faible latence), Mistral, Cerebras, Together offrent des niveaux gratuits ou des modèles gratuits dédiés aux côtés d'options payantes. Nécessitent souvent une inscription, potentiellement une vérification téléphonique.
Intégrations de plateformes : GitHub Models intègre l'accès LLM dans le flux de travail des développeurs, avec des limites liées aux abonnements Copilot.
Plateformes de calcul : Modal, Baseten offrent des plateformes de calcul générales où vous payez pour l'utilisation, mais fournissent des crédits mensuels gratuits importants (30 $) suffisants pour une expérimentation LLM substantielle.
Fournisseurs de crédits d'essai : Fireworks, Nebius, Novita, AI21, Upstage, NLP Cloud, Hyperbolic, Sambanova fournissent des crédits initiaux en dollars ou en jetons pour explorer leurs offres de modèles.

Considérations techniques :

Clés API : Essentielles pour l'authentification ; conservez-les en sécurité.
Limites de débit : Les niveaux gratuits ont invariablement des limites (requêtes par minute/jour, jetons par minute/mois, requêtes simultanées). Ce sont des facteurs cruciaux pour la viabilité de l'application. Le README.md détaille ces éléments de manière exhaustive pour de nombreux fournisseurs (par exemple, les limites quotidiennes variables de Groq, les limites granulaires de jetons/requêtes de Google AI Studio, la limite RPM simple d'OVH).
Quotas : Similaires aux limites de débit, mais définissent souvent l'utilisation totale sur une période (par exemple, la limite de requêtes mensuelles de Cohere, l'allocation quotidienne de neurones de Cloudflare, le nombre total de jetons gratuits de Scaleway).
Quantification : Des techniques telles que AWQ (Activation-aware Weight Quantization) ou FP8 (8 bits Floating Point) sont fréquemment utilisées, en particulier sur Cloudflare et GitHub Models, pour réduire la taille du modèle et les exigences informatiques, permettant le déploiement sur une infrastructure gratuite ou rentable. Cela échange une certaine précision contre l'efficacité.
Fenêtres contextuelles : Varient considérablement (par exemple, le niveau gratuit de Cerebras limité à 8 K, Phi-3 offrant 128 K). Choisissez en fonction des exigences de la tâche.
Confidentialité/utilisation des données : Soyez conscient des politiques des fournisseurs, en particulier en ce qui concerne l'utilisation des données pour la formation des modèles (par exemple, les notes de Google AI Studio, le plan Mistral Experiment).

D'accord, alors quel est le meilleur LLM open-source pour chaque cas d'utilisation ?

Le choix de la « meilleure » API LLM open-source gratuite dépend fortement de la tâche de développement spécifique :

Chat général/Suivi des instructions : Llama 3.x Instruct, Mistral 7B Instruct, Mixtral 8x7B, Gemma 2/3 Instruct, Qwen 2.5 Instruct sont de solides prétendants. Commencez par des options largement disponibles comme Mistral 7B ou Llama 3.1 8B.
Codage : DeepSeek Coder, Qwen2.5 Coder, Llama 4 Scout/Maverick (montrent souvent des références de codage), Codestral (Mistral, niveau gratuit).
Multimodal (texte + image) : Llama 3.2 Vision Instruct, série Qwen 2.5 VL Instruct, Phi-3.5 Vision, Aya Vision. Vérifiez la disponibilité sur OpenRouter, Cloudflare, Together, Google Cloud.
Traitement de contexte long : Variantes Phi-3 128 k via GitHub Models.
Vitesse d'inférence élevée : Groq est souvent en tête, offrant des variantes Llama 3, Gemma 2, Mixtral (via Mistral Saba), etc.
Puissance maximale (via les niveaux gratuits/aperçus) : Recherchez les modèles les plus volumineux disponibles comme Llama 3.3 70B (plusieurs fournisseurs), Llama 3.1 405B (essais), Qwen 2.5 72B, potentiellement des aperçus expérimentaux sur Google Cloud ou GitHub.
Efficacité/contraintes de ressources : Les modèles plus petits comme Llama 3.2 (1B/3B), Phi-3 Mini, Gemma 3 (1B/4B) ou les modèles quantifiés (AWQ/FP8) sur Cloudflare/GitHub sont idéaux.

Conclusion

Le riche écosystème des LLM open-source combiné à des niveaux d'API gratuits accessibles présente une opportunité sans précédent pour les développeurs en 2025. Des modèles de chat polyvalents comme Llama 3 et Mistral 7B aux moteurs de codage spécialisés comme DeepSeek Coder et aux puissances multimodales comme Qwen VL, un vaste éventail de capacités est disponible pour l'expérimentation et l'intégration sans coût initial. En comprenant les modèles, les plateformes offrant un accès et les contraintes techniques associées telles que les limites de débit et les fenêtres contextuelles, les développeurs peuvent exploiter efficacement ces ressources pour créer la prochaine génération d'applications basées sur l'IA. N'oubliez pas de consulter la documentation du fournisseur pour les derniers détails et utilisez toujours ces précieuses ressources de manière responsable.

💡

button