So klont man eine Stimme mit der T2A-01-HD API von MiniMax

MiniMax stellt stolz T2A-01-HD vor, einen bahnbrechenden Fortschritt in der Text-to-Audio (T2A)-Technologie und den Voice-Cloning-Funktionen. Dieses revolutionäre Modell setzt neue Industriestandards, indem es beispiellose Vielseitigkeit in der Sprachsynthese, emotionaler Tiefe und mehrsprachiger Unterstützung bietet. Egal, ob Sie Voice-Cloning für Geschäftsanwendungen, kreative Projekte oder mehrsprachige Kommunikation benötigen, T2A-01-HD liefert naturgetreue Ergebnisse in hoher Qualität.

Hauptmerkmale von T2A-01-HD

Multi-Voice: Erweiterte Sprachsynthese und -klonierung

T2A-01-HD kann eine hochwertige synthetische Stimme aus nur 10 Sekunden Audioeingabe generieren. Es erfasst Sprachmerkmale, Sprachmuster und emotionale Nuancen und ist somit ideal für Anwendungen, die von automatisiertem Kundenservice bis hin zu KI-generierter Erzählung reichen.

Zu den wichtigsten Funktionen gehören:

300+ Voreingestellte Stimmen: Deckt mehrere Sprachen, Akzente, Geschlechter und Altersgruppen ab.
Custom Voice Cloning: Klonen Sie einzigartige Stimmen mit hoher Präzision.
Erweiterte Steuerung: Ändern Sie Tonhöhe, Geschwindigkeit und Ausdruck für eine angepasste Ausgabe.
Professionelle Effekte: Fügen Sie Raumakustik, Telefonfilter und andere Verbesserungen hinzu.

Multi-Emotion: KI-gestützte emotionale Intelligenz

Im Gegensatz zu herkömmlichen TTS-Modellen kann T2A-01-HD emotionale Nuancen in der Sprache erkennen und replizieren. Benutzer können das System Emotionen automatisch erkennen lassen oder diese für eine ausdrucksstärkere Ausgabe angeben, um ein wirklich menschenähnliches Erlebnis zu gewährleisten.

Multi-Language: Authentisches Voice Cloning in über 17 Sprachen

T2A-01-HD unterstützt Voice Cloning in mehreren Sprachen, darunter:

Englisch (US, UK, Australien, Indien)
Mandarin, Kantonesisch, Japanisch, Koreanisch, Vietnamesisch, Indonesisch
Französisch, Deutsch, Spanisch, Italienisch, Niederländisch, Russisch, Ukrainisch
Portugiesisch (Brasilianisch), Türkisch, Arabisch

Mit überlegener Wiedergabetreue im Vergleich zu früheren Modellen ermöglicht T2A-01-HD eine nahtlose Kommunikation über Sprachen hinweg, wobei natürliche Akzente erhalten bleiben.

So klonen Sie eine Stimme mit der API von MiniMax

MiniMax bietet eine einfache, aber leistungsstarke API, um schnelles Voice Cloning zu ermöglichen. Im Folgenden finden Sie eine Schritt-für-Schritt-Anleitung zur Verwendung der T2A-01-HD-API für Voice Cloning.

Schnelles Voice Cloning

Um eine geklonte Stimme zu erstellen, müssen Sie zuerst eine Audiodatei hochladen. Diese Datei sollte im MP3-, M4A- oder WAV-Format vorliegen, eine Dauer von 10 Sekunden bis 5 Minuten haben und eine Größe von unter 20MB aufweisen.

Ablauf der Operation

Laden Sie eine Audiodatei hoch: Verwenden Sie die Dateiupload-Oberfläche, um Ihre Audiodatei zu übermitteln und eine file_id abzurufen.
Klonen Sie die Stimme: Rufen Sie die Voice Clone API mit der file_id auf und weisen Sie eine benutzerdefinierte voice_id zu.
Verwenden Sie die geklonte Stimme: Verwenden Sie die voice_id innerhalb der T2A v2 API, um eine Sprachsyntheseausgabe zu generieren.

Hochladen einer Audiodatei

Um zu beginnen, laden Sie eine Audiodatei mit der File Upload API hoch. Dieser Schritt ist unerlässlich, um eine file_id zu erhalten, die für das Klonen der Stimme erforderlich ist.

Endpunkt:
https://api.minimaxi.chat/v1/files/upload

Erforderliche Parameter:

Authorization: Ihr API-Schlüssel
Content-Type: multipart/form-data
purpose: voice_clone
file: Die Audiodatei (MP3, M4A, WAV)

API-Anforderungsbeispiel (Python):

import json
import requests

group_id = 'your_group_id'  # Ersetzen Sie dies durch Ihre Gruppen-ID
api_key = 'your_api_key'  # Ersetzen Sie dies durch Ihren API-Schlüssel

# Audiodatei hochladen
url = f'https://api.minimaxi.chat/v1/files/upload?GroupId={group_id}'
headers = {'Authorization': f'Bearer {api_key}'}
data = {'purpose': 'voice_clone'}
files = {'file': open('audio.mp3', 'rb')}

response = requests.post(url, headers=headers, data=data, files=files)
file_id = response.json().get("file").get("file_id")
print("File ID:", file_id)

Klonen Sie die Stimme

Sobald die Datei hochgeladen wurde, verwenden Sie die file_id, um eine geklonte Stimme mit einer benutzerdefinierten voice_id zu erstellen.

Endpunkt:
https://api.minimaxi.chat/v1/voice_clone

Erforderliche Parameter:

file_id: Die ID der hochgeladenen Datei
voice_id: Benutzerdefinierte, benutzerdefinierte ID (muss mindestens 8 Zeichen lang sein, Buchstaben und Zahlen enthalten und mit einem Buchstaben beginnen)

Optionale Parameter:

noise_reduction: Boolesches Flag zur Aktivierung der Rauschunterdrückung (Standard: false)
text: Ein kurzer Textausschnitt (max. 300 Zeichen), um die geklonte Stimme in der Vorschau anzuzeigen
model: Das Text-to-Speech-Modell, das für die Vorschau verwendet wird (speech-01-turbo)
accuracy: Textvalidierungsschwelle (Standard: 0.7)
need_volume_normalization: Boolesches Flag für die Lautstärkenormalisierung (Standard: false)

API-Anforderungsbeispiel:

url = f"https://api.minimaxi.chat/v1/voice_clone?GroupId={group_id}"
payload = json.dumps({
  "file_id": file_id,
  "voice_id": "CustomVoice123"
})
headers = {
  'Authorization': f'Bearer {api_key}',
  'Content-Type': 'application/json'
}

response = requests.post(url, headers=headers, data=payload)
print("Voice Clone Response:", response.text)

Antwortbeispiel

${file_id}    
{"input_sensitive":false,"input_sensitive_type":0,"base_resp":{"status_code":0,"status_msg":"success"}}

Verwenden Sie die geklonte Stimme

Die geklonte Stimme kann innerhalb der T2A v2 API von MiniMax für die Sprachsynthese verwendet werden. Um die Stimme dauerhaft zu behalten, verwenden Sie sie mindestens einmal innerhalb von 7 Tagen; andernfalls wird sie automatisch gelöscht.

Antwortparameter der Voice Cloning API

Nach dem Senden der Anfrage gibt die API eine Antwort zurück, die den Erfolg oder Misserfolg des Klonvorgangs anzeigt. Eine erfolgreiche Antwort sieht so aus:

Anforderungsbeispiel

curl --location 'https://api.minimaxi.chat/v1/voice_clone?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'authorization: Bearer ${api_key}' \
--header 'content-type: application/json' \
--data '{
    "file_id":your file id,
    "voice_id":"your voice id"
}'

Antwortbeispiel

{
    "input_sensitive": false,
    "input_sensitive_type": 0,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

Verwendung von Apidog für schnelles Voice Cloning

Apidog vereinfacht das Testen und Visualisieren der Anfragen und Antworten, die am Voice-Cloning-Prozess beteiligt sind. Im Folgenden finden Sie eine Anleitung, wie Sie Apidog in Verbindung mit der MiniMaxi API verwenden können.

1. Hochladen einer Audiodatei in Apidog

Um den Voice-Cloning-Prozess zu starten, ist der erste Schritt das Hochladen einer Audiodatei. Apidog bietet eine einfache Oberfläche, um die Parameter auszufüllen, ohne die Anfrage tatsächlich auszuführen.

Öffnen Sie Apidog und starten Sie eine neue Anfrage.
Legen Sie den Authorization-Header mit Ihrem API-Schlüssel fest.
Fügen Sie den Parameter purpose mit dem Wert voice_clone hinzu.
Wählen Sie die Audiodatei (MP3, M4A, WAV) aus Ihrem lokalen Speicher aus.

Apidog-Beispiel:

Methode: POST
URL: https://api.minimaxi.chat/v1/files/upload
Authorization: Ihr API-Schlüssel
Formular-Daten:
purpose: voice_clone
file: Wählen Sie Ihre Audiodatei aus (z. B. audio.mp3)

Sobald Sie die Parameter ausgefüllt haben, zeigt Apidog eine Mock-Antwort mit der file_id an, die für den nächsten Schritt erforderlich ist.

2. Klonen der Stimme mit Apidog

Nachdem Sie die Audiodatei hochgeladen und die file_id erhalten haben, können Sie nun mit dem Klonen der Stimme fortfahren.

Öffnen Sie die Voice Clone API in Apidog.
Legen Sie den Authorization-Header mit Ihrem API-Schlüssel fest.
Geben Sie die file_id ein, die Sie vom Upload-Schritt erhalten haben.
Geben Sie eine benutzerdefinierte voice_id (z. B. test1234) für die geklonte Stimme an.
Konfigurieren Sie optional zusätzliche Parameter wie Rauschunterdrückung oder Lautstärkenormalisierung.

Apidog-Beispiel:

Methode: POST
URL: https://api.minimaxi.chat/v1/voice_clone
Authorization: Ihr API-Schlüssel
Body:
file_id: Die ID aus Ihrer hochgeladenen Datei
voice_id: Eine benutzerdefinierte Voice-ID (z. B. test1234)

3. Beispiel-API-Antwort in Apidog

Sobald die Anforderungsparameter ausgefüllt sind, zeigt Apidog die erwartete Antwort an. Hier ist ein Beispiel dafür, wie eine erfolgreiche Antwort aussehen könnte:

{
    "input_sensitive": false,
    "input_sensitive_type": 0,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

4. Vorteile der Verwendung von Apidog

No-Code-Tests: Sie müssen die eigentliche Anfrage nicht ausführen. Füllen Sie einfach die Parameter aus, und Apidog simuliert die API-Antwort.
Benutzerfreundliche Oberfläche: Die einfache Oberfläche von Apidog ermöglicht es Ihnen, verschiedene Parameter zu testen und Antworten einfach zu verfolgen.
Fehlerbehebung leicht gemacht: Wenn ein Fehler auftritt, enthält die Antwort hilfreiche Fehlercodes und -meldungen, die Sie bei der Fehlerbehebung unterstützen.

Durch die Verwendung von Apidog können Sie die Anforderungs- und Antwortstruktur schnell visualisieren, ohne die eigentlichen API-Aufrufe ausführen zu müssen, was es zu einem praktischen Werkzeug zum Testen der MiniMaxi Voice-Cloning-Funktionen macht.

Fehlercodes

Wenn während der Anforderung ein Fehler auftritt, enthält die Antwort einen base_resp.status_code und base_resp.status_msg zur Fehlerbehebung.

Fehlercode	Bedeutung
1000	Unbekannter Fehler
1001	Zeitüberschreitung
1002	Trigger RPM-Einschränkung
1004	Authentifizierungsfehler
1039	Trigger TPM-Einschränkung
1042	Ungültige Zeichen überschritten das Maximum (mehr als 10 % der Eingabe)
2013	Ungültiges Eingabeformat

Erleben Sie die Zukunft der Sprachtechnologie

T2A-01-HD von MiniMax ist ein Game-Changer in der KI-gesteuerten Sprachsynthese und bietet eine beispiellose Kombination aus Genauigkeit, emotionaler Tiefe und mehrsprachiger Unterstützung. Egal, ob Sie Voice Cloning für Unterhaltung, Barrierefreiheit oder Geschäftsanwendungen benötigen, T2A-01-HD liefert unübertroffene Leistung.

Testen Sie es jetzt kostenlos

Playground: Entdecken Sie KI-generierte Stimmen

API-Plattform: Integrieren Sie das Voice Cloning von MiniMax

Schnellstart für Entwickler

Erfahren Sie, wie Sie Ihre erste API-Anfrage mit der Gruppen-ID und dem API-Schlüssel stellen. Beim Aufrufen der API benötigen Sie sowohl die Gruppen-ID als auch den API-Schlüssel. Die Gruppen-ID ist der eindeutige Bezeichner für Ihr Konto, der mit den Berechtigungen Ihres Kontos verknüpft ist. Sie ist mit Ihren Aufladungen, der Abrechnung und der Durchsatznutzung verknüpft. Der API-Schlüssel ist für den sicheren Zugriff auf die API unerlässlich. Achten Sie darauf, ihn an einem sicheren Ort zu speichern, z. B. in einer verschlüsselten Textdatei auf Ihrem Computer, um unbefugten Zugriff zu verhindern. Befolgen Sie diese Schritte, um sie zu erhalten:

1. Holen Sie sich die Gruppen-ID:

Gehen Sie zur Registerkarte „Konto“ und wählen Sie im linken Menü „Ihr Profil“ aus.
Suchen Sie das Feld „Gruppen-ID“ in den grundlegenden Informationen. Dies ist eine 19-stellige Nummer. Sie können das Kopiersymbol verwenden, um die Gruppen-ID zu kopieren.

2. Generieren Sie einen API-Schlüssel:

Klicken Sie im linken Menü auf „API-Schlüssel“ und wählen Sie dann „Neuen geheimen Schlüssel erstellen“ aus.

Geben Sie einen Namen für den Schlüssel in das bereitgestellte Feld ein und klicken Sie dann auf „Erstellen“.

Es erscheint ein Dialogfeld. Bevor Sie auf „Bestätigen“ klicken, verwenden Sie das Kopiersymbol, um den API-Schlüssel sicher zu speichern, da er nicht mehr angezeigt wird.

Mit T2A-01-HD ist die Zukunft der KI-gestützten Sprachsynthese da. Beginnen Sie noch heute mit der Erstellung lebensechter Stimmen!

button