Comment exécuter Dia-1.6B en local (Meilleure alternative open source à ElevenLabs)

Le paysage de la technologie de synthèse vocale (TTS) progresse à une vitesse fulgurante, allant bien au-delà des voix robotiques du passé. Les systèmes TTS modernes basés sur l'IA peuvent produire une parole humaine remarquablement réaliste et expressive, créant de nouvelles possibilités pour les créateurs de contenu, les développeurs et les entreprises. Alors que des services sophistiqués basés sur le cloud comme Eleven Labs ont mené la charge avec une sortie haute fidélité et le clonage de voix, ils s'accompagnent souvent de coûts d'abonnement, de considérations de confidentialité des données et d'un contrôle utilisateur limité.

C'est là que les modèles TTS open-source ont un impact significatif. Offrant transparence, flexibilité et innovation axée sur la communauté, ils présentent des alternatives convaincantes. Un nouveau venu remarquable dans cet espace est Dia-1.6B, développé par Nari Labs. Ce modèle, doté de 1,6 milliard de paramètres, excelle non seulement dans le TTS standard, mais est spécifiquement conçu pour générer des dialogues réalistes, avec des indices non verbaux et des caractéristiques vocales contrôlables.

Cet article fournit un guide complet de Dia-1.6B. Nous explorerons ses capacités uniques, détaillerons pourquoi il se présente comme un concurrent open-source solide aux plateformes établies, passerons en revue les étapes pour l'exécuter sur votre matériel local, couvrirons ses exigences techniques et discuterons des considérations éthiques essentielles concernant son utilisation. Si vous recherchez une solution TTS puissante, adaptable et transparente sous votre contrôle direct, Dia-1.6B mérite une sérieuse considération.

💡

Vous voulez un excellent outil de test d'API qui génère une belle documentation d'API ?

Vous voulez une plateforme intégrée, tout-en-un, pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !

button

Qu'est-ce que Dia-1.6B ? Une introduction

Dia-1.6B est un grand modèle de langage conçu pour la synthèse texte-parole, créé par Nari Labs et mis à disposition via la plateforme Hugging Face. Sa principale distinction réside dans son optimisation pour la génération de dialogues conversationnels plutôt que de phrases isolées.

Dia is absolutely stunning 🤯

1.6B parameter TTS model to create realistic dialogue from text. Control emotion/tone via audio conditioning + generates nonverbals like laughter & coughs. Licensed Apache 2.0 🔥

⬇️ Sharing the online demo below pic.twitter.com/b7jglAcwbG
— Victor M (@victormustar) April 22, 2025

Les caractéristiques clés incluent :

Taille du modèle : Avec 1,6 milliard de paramètres, Dia possède la capacité de capturer des nuances de parole complexes, notamment l'intonation, le rythme et le ton émotionnel.
Génération de dialogues : Il est conçu pour traiter des scripts contenant plusieurs locuteurs. De simples balises comme [S1] et [S2] désignent différents locuteurs, permettant la création de conversations naturelles.
Communication non verbale : Pour améliorer le réalisme, Dia peut générer directement des sons non verbaux courants comme le rire ((laughs)), la toux ((coughs)) ou le raclement de gorge ((clears throat)) lorsque ces indices sont inclus dans le texte d'entrée.
Conditionnement audio : Les utilisateurs peuvent influencer la voix de sortie en fournissant un exemple audio d'entrée. Cette fonctionnalité permet de contrôler l'émotion et le ton de la parole générée et constitue la base de ses capacités de clonage vocal.
Poids et code ouverts : Dia-1.6B est publié avec des poids de modèle ouverts et un code d'inférence sous la licence permissive Apache 2.0. Cela permet à quiconque de télécharger, d'examiner, de modifier et d'utiliser le modèle librement, favorisant la collaboration et la transparence. Les poids du modèle sont hébergés sur Hugging Face.
Prise en charge linguistique : Actuellement, Dia-1.6B prend en charge exclusivement la génération en anglais.

Nari Labs fournit également une page de démonstration comparant Dia-1.6B à ElevenLabs Studio et Sesame CSM-1B, et grâce au support de Hugging Face, un ZeroGPU Space est disponible pour que les utilisateurs puissent essayer le modèle sans configuration locale.

Principales caractéristiques de Dia-1.6B

Dia se distingue par plusieurs fonctionnalités de base :

Synthèse de dialogues réalistes : Son architecture est spécifiquement adaptée pour générer des conversations naturelles entre plusieurs locuteurs indiqués par de simples balises textuelles.
Sons non verbaux intégrés : La capacité de produire des sons comme le rire ou la toux directement à partir d'indices textuels ajoute une couche d'authenticité significative, souvent absente dans les TTS standard.
Clonage et conditionnement vocal : En fournissant un exemple audio de référence et sa transcription (correctement formatée), les utilisateurs peuvent conditionner la sortie du modèle pour imiter les caractéristiques de la voix de l'échantillon ou contrôler son ton émotionnel. Un exemple de script (example/voice_clone.py) est disponible dans le référentiel. L'espace Hugging Face permet également de télécharger de l'audio pour le clonage.
Accessibilité open source : Publié sous la licence Apache 2.0 avec des poids ouverts, Dia donne aux utilisateurs un accès complet au modèle pour la recherche, le développement ou les projets personnels, sans restrictions de fournisseur.

Dia-1.6B vs. Elevenlabs vs Sesame 1B : une comparaison rapide

pic.twitter.com/kaFdal8a9n Lets go, an Open Source TTS-Model that beats Elevenlabs and Sesame 1b at only 1.6b.

Dia 1.6b is absolutely amazing. This gets hardly better. https://t.co/mCAWSOaa8q
— Chubby♨️ (@kimmonismus) April 22, 2025

Alors que des plateformes comme Eleven Labs offrent des interfaces soignées et des résultats de haute qualité, Dia-1.6B offre des avantages distincts inhérents à son approche open-source et locale :

Coût : Les services cloud impliquent généralement des frais d'abonnement ou une tarification basée sur l'utilisation, ce qui peut devenir important. Dia-1.6B est gratuit à télécharger et à utiliser ; les seuls coûts sont l'investissement matériel et la consommation d'électricité.
Contrôle et confidentialité : L'utilisation du TTS cloud implique l'envoi de vos données textuelles à des serveurs externes. L'exécution de Dia localement garantit que vos données restent entièrement sur votre machine, offrant un maximum de confidentialité et de contrôle, ce qui est essentiel pour les informations sensibles.
Transparence et personnalisation : Les poids ouverts permettent l'inspection et, plus important encore, le réglage fin sur des ensembles de données ou des voix spécifiques pour des applications uniques. Ce niveau de personnalisation est généralement impossible avec des systèmes fermés et propriétaires.
Capacité hors ligne : Les plateformes cloud nécessitent une connexion Internet. Dia, une fois installé, peut fonctionner entièrement hors ligne, ce qui le rend adapté aux environnements avec une connectivité limitée ou des besoins de sécurité accrus.
Communauté et innovation : Les projets open-source bénéficient des contributions de la communauté, notamment des corrections de bogues, des améliorations de fonctionnalités et de nouvelles applications, accélérant potentiellement les progrès au-delà de la capacité d'un seul fournisseur. Nari Labs encourage l'implication de la communauté via son serveur Discord.
Liberté vis-à-vis du verrouillage du fournisseur : S'appuyer sur un seul service propriétaire crée une dépendance. Si le fournisseur modifie les prix, les fonctionnalités ou les conditions, les utilisateurs ont des options limitées. L'open source offre la liberté de s'adapter et de changer.

Choisir Dia-1.6B, c'est opter pour un plus grand contrôle, une plus grande confidentialité et une meilleure rentabilité au détriment de la commodité et des exigences matérielles.

Premiers pas : exécuter Dia-1.6B localement

Voici comment configurer et exécuter Dia-1.6B sur votre propre ordinateur, basé sur les instructions de Nari Labs.

Configuration matérielle requise

Dépendance GPU : Actuellement, Dia-1.6B nécessite un GPU NVIDIA compatible CUDA. La prise en charge du processeur est prévue, mais pas encore implémentée.
VRAM : Le modèle complet nécessite environ 10 Go de mémoire GPU. Cela nécessite généralement des GPU grand public de milieu de gamme à haut de gamme (comme RTX 3070/4070 ou mieux) ou des cartes d'entreprise (comme A4000). Les futures versions quantifiées visent à réduire cela de manière significative.
Vitesse d'inférence : Les performances dépendent du GPU. Sur les GPU d'entreprise, la génération peut être plus rapide qu'en temps réel. Sur une NVIDIA A4000, Nari Labs a mesuré environ 40 tokens/seconde (où ~86 tokens constituent 1 seconde d'audio). Les anciens GPU seront plus lents.

Pour les utilisateurs sans matériel approprié, Nari Labs suggère d'essayer l'espace Hugging Face ZeroGPU ou de rejoindre la liste d'attente pour accéder à des versions potentiellement plus grandes et hébergées de leurs modèles.

Conditions préalables

GPU : Un GPU NVIDIA compatible CUDA est essentiel. Le modèle a été testé avec PyTorch 2.0+ et CUDA 12.6. Assurez-vous que vos pilotes GPU sont à jour.
VRAM : Environ 10 Go de mémoire GPU sont nécessaires pour le modèle complet à 1,6 milliard de paramètres. (Les versions quantifiées prévues pour l'avenir réduiront cela).
Python : Une installation Python fonctionnelle (par exemple, Python 3.8+).
Git : Requis pour cloner le référentiel logiciel.
uv (recommandé) : Nari Labs utilise uv, un gestionnaire de packages Python rapide. Installez-le si vous ne l'avez pas (pip install uv). Bien qu'il soit facultatif, son utilisation simplifie la configuration.

Installation et démarrage rapide (interface utilisateur Gradio)

Clonez le référentiel :
Ouvrez votre terminal/invite de commande, accédez à votre répertoire d'installation souhaité et exécutez :

git clone https://github.com/nari-labs/dia.git

Accédez au répertoire :

cd dia

Exécutez l'application (en utilisant uv) :
C'est la méthode recommandée. Elle gère automatiquement la création d'un environnement virtuel et l'installation des dépendances.

uv run app.py

La première fois que vous exécutez cette commande, elle téléchargera les dépendances, notamment PyTorch, les bibliothèques Hugging Face, Gradio, les poids du modèle Dia (~1,6 milliard de paramètres) et les composants du Descript Audio Codec. Cette configuration initiale peut prendre un certain temps. Les lancements ultérieurs seront beaucoup plus rapides.

Exécutez l'application (alternative manuelle) :
Si vous n'utilisez pas uv, vous devez généralement :

# Créez un environnement virtuel
python -m venv .venv
# Activez-le (la syntaxe varie selon le système d'exploitation)
# Linux/macOS : source .venv/bin/activate
# Windows : .venv\Scripts\activate
# Installez les dépendances (vérifiez pyproject.toml pour plus de détails)
pip install -r requirements.txt # Ou équivalent
# Exécutez l'application
python app.py

(Remarque : vérifiez le fichier pyproject.toml dans le référentiel cloné pour la liste exacte des packages requis si vous installez manuellement.)

Accédez à l'interface Gradio :
Une fois le serveur démarré, votre terminal affichera une URL locale, généralement comme http://127.0.0.1:7860. Ouvrez cette URL dans votre navigateur Web.

Utilisation de l'interface utilisateur Gradio :
L'interface Web permet une interaction facile :

Saisie de texte : Tapez ou collez votre script. Utilisez [S1], [S2], etc., pour les locuteurs et (laughs), (coughs) pour les sons non verbaux.
Invite audio (facultatif) : Téléchargez un fichier audio de référence pour guider le style vocal ou effectuer un clonage. N'oubliez pas de placer la transcription de l'audio de l'invite avant votre script principal dans la saisie de texte, en suivant le format requis (voir les exemples).
Générer : Cliquez sur le bouton pour démarrer la synthèse. Le temps de traitement dépend de votre GPU et de la longueur du script.
Sortie : L'audio généré apparaîtra avec des commandes de lecture et une option de téléchargement.

Remarque sur la cohérence vocale : Le modèle de base Dia-1.6B n'a pas été affiné sur une voix spécifique. Par conséquent, la génération d'audio plusieurs fois à partir du même texte peut donner des voix différentes. Pour obtenir une sortie de locuteur cohérente entre les générations, vous pouvez soit :

Utiliser une invite audio : Fournir un clip audio de référence (comme décrit ci-dessus).
Fixer la graine : Définir une valeur de graine aléatoire spécifique (si l'interface utilisateur Gradio ou la fonction de bibliothèque expose ce paramètre).

Pour l'intégration dans des applications personnalisées, voici un exemple de script Python et d'utilisation de Dia :

import soundfile as sf
# Assurez-vous que le package 'dia' est correctement installé ou disponible dans votre chemin Python
from dia.model import Dia

# Chargez le modèle pré-entraîné depuis Hugging Face (téléchargements si nécessaire)
model = Dia.from_pretrained("nari-labs/Dia-1.6B")

# Préparez le texte d'entrée avec des balises de dialogue et des non-verbaux
text = "[S1] Dia est un modèle texte-dialogue à poids ouverts. [S2] Vous avez le contrôle total sur les scripts et les voix. [S1] Wow. Incroyable. (laughs) [S2] Essayez-le maintenant sur Git hub ou Hugging Face."

# Générez la forme d'onde audio (nécessite un GPU)
# La sortie est généralement un tableau NumPy
output_waveform = model.generate(text)

# Définissez la fréquence d'échantillonnage (Dia utilise couramment 44100 Hz)
sample_rate = 44100

# Enregistrez l'audio généré dans un fichier
output_filename = "dialogue_output.wav" # Ou .mp3, etc.
sf.write(output_filename, output_waveform, sample_rate)

print(f"Audio enregistré avec succès dans {output_filename}")

Un package PyPI et un outil d'interface de ligne de commande (CLI) sont prévus pour une prochaine version afin de simplifier davantage cela.

💡

button

Conclusion : votre voix, votre contrôle

Dia-1.6B de Nari Labs marque une étape importante dans la synthèse vocale open-source. Son accent unique sur la génération de dialogues, l'inclusion de sons non verbaux et son engagement envers les poids ouverts sous la licence Apache 2.0 en font une alternative puissante pour les utilisateurs recherchant un plus grand contrôle, une plus grande confidentialité et une personnalisation que les services cloud typiques ne le permettent. Bien qu'il exige un matériel performant et un certain degré de configuration technique, les avantages – zéro frais d'utilisation continus, souveraineté complète des données, fonctionnement hors ligne et potentiel d'adaptation approfondie – sont convaincants. Alors que Dia continue d'évoluer avec des optimisations prévues comme la quantification et la prise en charge du processeur, son accessibilité et son utilité sont appelées à croître, consolidant davantage le rôle de l'open source dans l'avenir de la synthèse vocale. Pour ceux qui sont équipés et désireux d'exécuter des modèles localement, Dia-1.6B offre un moyen de réellement posséder vos capacités de génération vocale.