在这里了解如何进行专业克隆,来获得媲美真人播音的声音生成效果通过专业级语音克隆,您将可以提供最多60分钟(建议至少一分钟以上)的声音样本,我们的AI将会在3-60分钟内深入训练学习您所提供的声音样本的每一个语调、发音方式、节奏、韵律等各项细节,实现与原声无法区分的顶尖克隆合成效果,并同时保留悟声语音合成算法的语言理解力、情感表现力等所有尖端特性。专业克隆为增值付费自助服务项目,每次克隆均需要消耗独立的专业克隆额度。您可以前往增值商店为您的帐号购买更多专业克隆次数。 操作流程#
准备工作#
在开始克隆前,请您务必阅读我们的声明信息并确认,确认同意声明及我们的相关服务协议后,您方可开始创建声音角色。
专业克隆由一定数量的样本实时训练而成,创建专业克隆角色时,您需要准备用于克隆的单个或多个音频样本文件。所有音频样本文件相加的总时长建议不少于1分钟,最多60分钟;在该范围内,总时长越大,克隆效果越佳。
每个音频文件都需要为wav/mp3/mp4(建议转为音频)/flac/m4a/ogg格式。
请确保尽可能提供高质量的音频,且确保音频中包含可被识别的语句(有关支持的语言,请参见[模型介绍]。关于确保克隆效果与质量的更多技巧,请参见注意事项 音频样本文件准备完毕后,您可手动选择音频文件或拖动到上传框,也可打包为未加密的Zip格式压缩包,系统将自动整理样本文件。上传的文件总大小最大不能超过256MB。开始克隆#
1.
通过角色管理页面的添加角色按钮,或配音工作室页面中的“克隆角色声音”按钮来召唤出角色创建面板。 3.
确认有剩余的专业克隆额度,点击下一步,您将会看到“专业克隆样本包”部分。您可手动选择音频文件或拖动到上传框,也可打包为未加密的Zip格式压缩包,系统将自动整理样本文件。上传的文件总大小最大不能超过256MB。
4.
请在“默认风格样本”一栏中,从您准备用于专业克隆的一系列音频样本中,截取并选择约5-30秒左右的最具代表性且高质量的一段音频,作为本次克隆的默认风格指引样本;这段默认风格样本将用于定义该角色默认的声音表现,包括声线、情感、语速、语调、韵律等(稍后您可以在角色详情页中添加更多不同的风格样本)。您也可以按照与瞬时克隆相同的模式,选择或录制不包含在压缩包内的其它音频作为默认风格样本,但建议使用来自训练素材包的风格样本能更好地还原发音风格。
5.
确认您上传的语音样本是否属于模型支持的语言范围,并手动选择样本的语言。
6.
您需要为创建的角色指定一个名称,并可选地指定一段描述以及一个头像。目前,名称、描述与头像仅供展示,并不会影响语音克隆的行为。
7.
全部内容确认无误后,点击右下角的提交按钮即可开始上传并提交专业克隆任务。
基于相关法律法规要求和安全管理需要,使用专业克隆模式需要完成实名认证,请参见以下步骤了解个人实名认证的流程。
1
待认证状态
每次使用专业克隆服务克隆声音时,均需要进行 实名验证方可继续操作,按前序步骤提交所有样本后,角色状态会显示为“等待实名”
2
进入认证流程

点击进入角色详情,或点击“等待实名”标记,并点击“完成实名认证”进入实名认证流程。
3
输入认证信息
在信息输入框中输入用于认证的实名信息,并确认。
(如有认证相关问题,您可阅读帮助,或联系客服支持)
个人账号仅限一个自然人进行实名,初次通过验证的实名信息将与账号绑定,后续不支持更改。每次使用专业克隆服务必须由同一个已绑定的自然人本人进行认证。
4
使用对应实名的支付宝完成认证
提交信息后,将展示二维码界面,使用对应已实名的支付宝扫码按照相应提示完成人脸识别认证

验证成功后您的专业克隆任务将会自动开始,状态显示为“训练中”。此时只需等待角色训练完毕即可进行使用。(通常仅需3-60分钟,视样本长度而定)
已训练完成的角色,后续调用不需要实名。