วิธีการโคลนเสียงโดยใช้ MiniMax's T2A-01-HD API

```html

MiniMax ภูมิใจนำเสนอ T2A-01-HD ซึ่งเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยี Text-to-Audio (T2A) และความสามารถในการโคลนเสียง โมเดลปฏิวัติวงการนี้สร้างมาตรฐานใหม่ในอุตสาหกรรมด้วยการนำเสนอความสามารถรอบด้านที่เหนือชั้นในการสังเคราะห์เสียง ความลึกซึ้งทางอารมณ์ และการรองรับหลายภาษา ไม่ว่าคุณจะต้องการโคลนเสียงสำหรับแอปพลิเคชันทางธุรกิจ โครงการสร้างสรรค์ หรือการสื่อสารหลายภาษา T2A-01-HD มอบผลลัพธ์ที่มีความเที่ยงตรงสูงและฟังดูเป็นธรรมชาติ

คุณสมบัติหลักของ T2A-01-HD

Multi-Voice: การสังเคราะห์และโคลนเสียงขั้นสูง

T2A-01-HD สามารถสร้างเสียงสังเคราะห์คุณภาพสูงได้จากอินพุตเสียงเพียง 10 วินาที มันจะจับลักษณะเสียง รูปแบบการพูด และความแตกต่างทางอารมณ์ ทำให้เหมาะสำหรับแอปพลิเคชันต่างๆ ตั้งแต่การบริการลูกค้าอัตโนมัติไปจนถึงการบรรยายที่สร้างโดย AI

ความสามารถหลัก ได้แก่:

300+ เสียงที่สร้างไว้ล่วงหน้า: ครอบคลุมหลายภาษา สำเนียง เพศ และอายุ
การโคลนเสียงแบบกำหนดเอง: โคลนเสียงที่ไม่ซ้ำใครด้วยความแม่นยำสูง
การควบคุมขั้นสูง: ปรับเปลี่ยนระดับเสียง ความเร็ว และการแสดงออกเพื่อผลลัพธ์ที่ปรับแต่งได้
เอฟเฟกต์ระดับมืออาชีพ: เพิ่มเสียงสะท้อนในห้อง ตัวกรองโทรศัพท์ และการปรับปรุงอื่นๆ

Multi-Emotion: ปัญญาทางอารมณ์ที่ขับเคลื่อนด้วย AI

แตกต่างจากโมเดล TTS ทั่วไป T2A-01-HD สามารถระบุและจำลองความแตกต่างทางอารมณ์ในการพูดได้ ผู้ใช้สามารถให้ระบบตรวจจับอารมณ์โดยอัตโนมัติ หรือระบุอารมณ์เหล่านั้นเพื่อผลลัพธ์ที่แสดงออกมากขึ้น เพื่อให้มั่นใจถึงประสบการณ์ที่เหมือนมนุษย์อย่างแท้จริง

Multi-Language: การโคลนเสียงที่แท้จริงใน 17+ ภาษา

T2A-01-HD รองรับการโคลนเสียงในหลายภาษา ได้แก่:

อังกฤษ (สหรัฐอเมริกา สหราชอาณาจักร ออสเตรเลีย อินเดีย)
จีนกลาง จีนกวางตุ้ง ญี่ปุ่น เกาหลี เวียดนาม อินโดนีเซีย
ฝรั่งเศส เยอรมัน สเปน อิตาลี ดัตช์ รัสเซีย ยูเครน
โปรตุเกส (บราซิล) ตุรกี อาหรับ

ด้วยความเที่ยงตรงที่เหนือกว่าเมื่อเทียบกับรุ่นก่อนหน้า T2A-01-HD ช่วยให้การสื่อสารเป็นไปอย่างราบรื่นในหลายภาษา ในขณะที่ยังคงรักษาสำเนียงที่เป็นธรรมชาติไว้

วิธีโคลนเสียงด้วย API ของ MiniMax

MiniMax มอบ API ที่เรียบง่ายแต่ทรงพลังเพื่อเปิดใช้งานการโคลนเสียงอย่างรวดเร็ว ด้านล่างนี้คือคำแนะนำทีละขั้นตอนเกี่ยวกับวิธีใช้ T2A-01-HD API สำหรับการโคลนเสียง

การโคลนเสียงอย่างรวดเร็ว

ในการสร้างเสียงที่โคลน คุณต้องอัปโหลดไฟล์เสียงก่อน ไฟล์นี้ควรอยู่ในรูปแบบ MP3, M4A หรือ WAV โดยมีระยะเวลา 10 วินาที ถึง 5 นาที และมีขนาดต่ำกว่า 20MB

ขั้นตอนการดำเนินการ

อัปโหลดไฟล์เสียง: ใช้ส่วนต่อประสานการอัปโหลดไฟล์เพื่อส่งไฟล์เสียงของคุณและดึง file_id
โคลนเสียง: เรียก Voice Clone API ด้วย file_id และกำหนด voice_id ที่กำหนดเอง
ใช้เสียงที่โคลน: ใช้ voice_id ภายใน T2A v2 API เพื่อสร้างเอาต์พุตการสังเคราะห์คำพูด

การอัปโหลดไฟล์เสียง

ในการเริ่มต้น ให้อัปโหลดไฟล์เสียงโดยใช้ File Upload API ขั้นตอนนี้จำเป็นสำหรับการรับ file_id ซึ่งจำเป็นสำหรับการโคลนเสียง

Endpoint:
https://api.minimaxi.chat/v1/files/upload

พารามิเตอร์ที่จำเป็น:

Authorization: API key ของคุณ
Content-Type: multipart/form-data
purpose: voice_clone
file: ไฟล์เสียง (MP3, M4A, WAV)

ตัวอย่างคำขอ API (Python):

import json
import requests

group_id = 'your_group_id'  # แทนที่ด้วย ID กลุ่มของคุณ
api_key = 'your_api_key'  # แทนที่ด้วย API key ของคุณ

# อัปโหลดไฟล์เสียง
url = f'https://api.minimaxi.chat/v1/files/upload?GroupId={group_id}'
headers = {'Authorization': f'Bearer {api_key}'}
data = {'purpose': 'voice_clone'}
files = {'file': open('audio.mp3', 'rb')}

response = requests.post(url, headers=headers, data=data, files=files)
file_id = response.json().get("file").get("file_id")
print("File ID:", file_id)

โคลนเสียง

เมื่ออัปโหลดไฟล์แล้ว ให้ใช้ file_id เพื่อสร้างเสียงที่โคลนด้วย voice_id ที่กำหนดเอง

Endpoint:
https://api.minimaxi.chat/v1/voice_clone

พารามิเตอร์ที่จำเป็น:

file_id: ID ของไฟล์ที่อัปโหลด
voice_id: ID ที่ผู้ใช้กำหนดเอง (ต้องมีอย่างน้อย 8 อักขระ ประกอบด้วยตัวอักษรและตัวเลข และขึ้นต้นด้วยตัวอักษร)

พารามิเตอร์เสริม:

noise_reduction: แฟล็กบูลีนเพื่อเปิดใช้งานการลดเสียงรบกวน (ค่าเริ่มต้น: false)
text: ส่วนย่อยข้อความสั้นๆ (สูงสุด 300 อักขระ) เพื่อดูตัวอย่างเสียงที่โคลน
model: โมเดล text-to-speech ที่ใช้สำหรับตัวอย่าง (speech-01-turbo)
accuracy: เกณฑ์การตรวจสอบความถูกต้องของข้อความ (ค่าเริ่มต้น: 0.7)
need_volume_normalization: แฟล็กบูลีนสำหรับการปรับระดับเสียงให้เป็นปกติ (ค่าเริ่มต้น: false)

ตัวอย่างคำขอ API:

url = f"https://api.minimaxi.chat/v1/voice_clone?GroupId={group_id}"
payload = json.dumps({
  "file_id": file_id,
  "voice_id": "CustomVoice123"
})
headers = {
  'Authorization': f'Bearer {api_key}',
  'Content-Type': 'application/json'
}

response = requests.post(url, headers=headers, data=payload)
print("Voice Clone Response:", response.text)

ตัวอย่างการตอบสนอง

${file_id}    
{"input_sensitive":false,"input_sensitive_type":0,"base_resp":{"status_code":0,"status_msg":"success"}}

ใช้เสียงที่โคลน

เสียงที่โคลนสามารถใช้ภายใน MiniMax’s T2A v2 API สำหรับการสังเคราะห์คำพูด ในการเก็บรักษาเสียงอย่างถาวร ให้ใช้เสียงนั้นอย่างน้อยหนึ่งครั้งภายใน 7 วัน มิฉะนั้น เสียงนั้นจะถูกลบโดยอัตโนมัติ

พารามิเตอร์การตอบสนอง API การโคลนเสียง

หลังจากส่งคำขอ API จะส่งคืนการตอบสนองที่ระบุความสำเร็จหรือความล้มเหลวของกระบวนการโคลน การตอบสนองที่สำเร็จมีลักษณะดังนี้:

ตัวอย่างคำขอ

curl --location 'https://api.minimaxi.chat/v1/voice_clone?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'authorization: Bearer ${api_key}' \
--header 'content-type: application/json' \
--data '{
    "file_id":your file id,
    "voice_id":"your voice id"
}'

ตัวอย่างการตอบสนอง

{
    "input_sensitive": false,
    "input_sensitive_type": 0,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

การใช้ Apidog เพื่อการโคลนเสียงที่รวดเร็ว

Apidog ช่วยลดความซับซ้อนในการทดสอบและการแสดงภาพคำขอและการตอบสนองที่เกี่ยวข้องกับกระบวนการโคลนเสียง ด้านล่างนี้คือคำแนะนำเกี่ยวกับวิธีที่คุณสามารถใช้ Apidog ร่วมกับ MiniMaxi API

1. การอัปโหลดไฟล์เสียงใน Apidog

ในการเริ่มต้นกระบวนการโคลนเสียง ขั้นตอนแรกคือการอัปโหลดไฟล์เสียง Apidog มีส่วนต่อประสานที่ง่ายต่อการกรอกพารามิเตอร์โดยไม่ต้องเรียกใช้คำขอจริง

เปิด Apidog และเริ่ม Request ใหม่
ตั้งค่าส่วนหัว Authorization ด้วย API key ของคุณ
เพิ่มพารามิเตอร์ purpose ด้วยค่า voice_clone
เลือกไฟล์เสียง (MP3, M4A, WAV) จากที่เก็บข้อมูลในเครื่องของคุณ

ตัวอย่าง Apidog:

Method: POST
URL: https://api.minimaxi.chat/v1/files/upload
Authorization: API key ของคุณ
Form Data:
purpose: voice_clone
file: เลือกไฟล์เสียงของคุณ (เช่น audio.mp3)

เมื่อคุณกรอกพารามิเตอร์แล้ว Apidog จะแสดงการตอบสนองจำลองด้วย file_id ซึ่งจำเป็นสำหรับขั้นตอนถัดไป

2. การโคลนเสียงด้วย Apidog

หลังจากอัปโหลดไฟล์เสียงและรับ file_id แล้ว ตอนนี้คุณสามารถดำเนินการโคลนเสียงได้

เปิด Voice Clone API ใน Apidog
ตั้งค่าส่วนหัว Authorization ด้วย API key ของคุณ
ป้อน file_id ที่คุณได้รับจากขั้นตอนการอัปโหลด
ระบุ voice_id ที่กำหนดเอง (เช่น test1234) สำหรับเสียงที่โคลน
เลือกกำหนดค่าพารามิเตอร์เพิ่มเติม เช่น การลดเสียงรบกวน หรือการปรับระดับเสียงให้เป็นปกติ

ตัวอย่าง Apidog:

Method: POST
URL: https://api.minimaxi.chat/v1/voice_clone
Authorization: API key ของคุณ
Body:
file_id: ID จากไฟล์ที่คุณอัปโหลด
voice_id: ID เสียงที่กำหนดเอง (เช่น test1234)

3. ตัวอย่างการตอบสนอง API ใน Apidog

เมื่อกรอกพารามิเตอร์คำขอแล้ว Apidog จะแสดงการตอบสนองที่คาดไว้ นี่คือตัวอย่างลักษณะของการตอบสนองที่ประสบความสำเร็จ:

{
    "input_sensitive": false,
    "input_sensitive_type": 0,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

4. ประโยชน์ของการใช้ Apidog

การทดสอบแบบ No-Code: คุณไม่จำเป็นต้องเรียกใช้คำขอจริง เพียงกรอกพารามิเตอร์ แล้ว Apidog จะจำลองการตอบสนอง API
ส่วนต่อประสานที่ใช้งานง่าย: ส่วนต่อประสานที่เรียบง่ายของ Apidog ช่วยให้คุณทดสอบพารามิเตอร์ต่างๆ และติดตามการตอบสนองได้อย่างง่ายดาย
การแก้ไขข้อผิดพลาดทำได้ง่าย: หากเกิดข้อผิดพลาด การตอบสนองจะรวมถึงรหัสข้อผิดพลาดและข้อความที่เป็นประโยชน์เพื่อแนะนำคุณในการแก้ไขปัญหา

ด้วยการใช้ Apidog คุณสามารถแสดงภาพโครงสร้างคำขอและการตอบสนองได้อย่างรวดเร็วโดยไม่จำเป็นต้องดำเนินการเรียก API จริง ทำให้เป็นเครื่องมือที่สะดวกสำหรับการทดสอบคุณสมบัติการโคลนเสียงของ MiniMaxi

รหัสข้อผิดพลาด

หากเกิดข้อผิดพลาดระหว่างคำขอ การตอบสนองจะรวมถึง base_resp.status_code และ base_resp.status_msg สำหรับการแก้ไขปัญหา

รหัสข้อผิดพลาด	ความหมาย
1000	ข้อผิดพลาดที่ไม่รู้จัก
1001	หมดเวลา
1002	ทริกเกอร์ข้อจำกัด RPM
1004	การตรวจสอบสิทธิ์ล้มเหลว
1039	ทริกเกอร์ข้อจำกัด TPM
1042	อักขระที่ไม่ถูกต้องเกินขีดจำกัดสูงสุด (มากกว่า 10% ของอินพุต)
2013	รูปแบบอินพุตไม่ถูกต้อง

สัมผัสอนาคตของเทคโนโลยีเสียง

T2A-01-HD ของ MiniMax เป็นตัวเปลี่ยนเกมในการสังเคราะห์เสียงที่ขับเคลื่อนด้วย AI โดยนำเสนอการผสมผสานที่เหนือชั้นของความแม่นยำ ความลึกซึ้งทางอารมณ์ และการรองรับหลายภาษา ไม่ว่าคุณจะต้องการโคลนเสียงเพื่อความบันเทิง การเข้าถึง หรือแอปพลิเคชันทางธุรกิจ T2A-01-HD มอบประสิทธิภาพที่ไม่มีใครเทียบได้

ลองเลยตอนนี้ฟรี

Playground: สำรวจเสียงที่สร้างโดย AI

API Platform: รวมการโคลนเสียงของ MiniMax

Developer Quickstart

เรียนรู้วิธีสร้างคำขอ API แรกของคุณโดยใช้ Group ID และ API key เมื่อเรียกใช้ API คุณจะต้องมีทั้ง GroupID และ API keyGroupID เป็นตัวระบุเฉพาะสำหรับบัญชีของคุณ ซึ่งเชื่อมโยงกับสิทธิ์ของบัญชีของคุณ มันเกี่ยวข้องกับการเติมเงิน การเรียกเก็บเงิน และการใช้งานปริมาณงานของคุณAPI key เป็นสิ่งจำเป็นสำหรับการเข้าถึง API อย่างปลอดภัย ตรวจสอบให้แน่ใจว่าได้จัดเก็บไว้ในตำแหน่งที่ปลอดภัย เช่น ไฟล์ข้อความที่เข้ารหัสบนคอมพิวเตอร์ของคุณ เพื่อป้องกันการเข้าถึงโดยไม่ได้รับอนุญาตทำตามขั้นตอนเหล่านี้เพื่อรับ:

1. รับ GroupID:

ไปที่แท็บ Account แล้วเลือก Your Profile จากเมนูด้านซ้าย
ค้นหาฟิลด์ GroupID ในข้อมูลพื้นฐาน นี่คือตัวเลข 19 หลัก คุณสามารถใช้ไอคอนคัดลอกเพื่อคัดลอก GroupID

2. สร้าง API Key:

ในเมนูด้านซ้าย คลิกที่ API Keys จากนั้นเลือก Create New Secret Key

ป้อนชื่อสำหรับคีย์ในช่องที่ให้ไว้ จากนั้นคลิก Create

กล่องโต้ตอบจะปรากฏขึ้น ก่อนคลิก Confirm ให้ใช้ไอคอนคัดลอกเพื่อบันทึก API key อย่างปลอดภัย เนื่องจากจะไม่แสดงอีก

ด้วย T2A-01-HD อนาคตของการสังเคราะห์เสียงที่ขับเคลื่อนด้วย AI มาถึงแล้ว เริ่มสร้างเสียงที่เหมือนจริงได้แล้ววันนี้!

button

```