Skip to main content

豆包语音复刻和语音合成

a. 创建应用

首先登录火山引擎后台,创建应用,点击连接 https://console.volcengine.com/speech/app?projectName=default 。 

image.png

记得勾选 "豆包语音合成模型2.0字符版"、"豆包声音复刻模型2.0字符版"、"语音合成大模型 字符版"、"声音复刻大模型 字符版"、"语音合成" 合计5个选项。

b. 购买声音复刻音色

购买豆包声音复刻音色1.0

image.png

购买豆包声音复刻音色2.0

image.png

 

c. 配置豆包tts参数
后台找到菜单: "基础配置" -> "语音合成配置" -> "豆包TTS配置"。
填写正确的access_token 和 app_id

image.png


d. 克隆自己的声音

登录到easyCallcenter365管理后台,找到菜单"基础配置"->"语音合成配置"->"豆包语音克隆"。 请预先录制好 20-30 秒左右的声音,请确保环境安静且无噪音。 既可以使用电脑加耳机组合,使用电脑自带的录音机录制; 也可以使用手机自带的录音机,把录制好的录音文件发送到电脑。 所有参数选择设置好之后,点击上传原始录音文件后,会自动启动声音克隆,这个过程大概10秒左右。请耐心等待。 

image.png

这里注意:如果填写的"声音ID"是2.0下面的,"模型类型"必须选择 "声音复刻ICL2.0效果"。 如果填写的"声音ID"是1.0下面的,"模型类型"可选择 "声音复刻ICL1.0效果"和"DiT标准版效果"以及"DiT还原版效果"。否则会报错。

image.png

复刻成功之后,可以使用训练好的音色进行语音合成测试。

image.png

image.png

注意:声音复刻2.0目前仅支持中英文,暂不支持其他语种。声音复刻1.0额外支持更多语种(日语、西班牙语、印尼语、葡萄牙语、德语、法语)。