Wusound悟声 - 使用指南
开发者文档返回悟声首页
开发者文档返回悟声首页
  1. 语音克隆&角色管理
  • 入门
    • 概览
    • 快速开始
    • 算法介绍
  • 语音克隆&角色管理
    • 概览
    • 瞬时克隆
    • 专业克隆
    • 管理角色
    • 注意事项
  • 语音合成
    • 概览
    • 项目管理
    • 内容编辑
    • 生成配置
    • 任务队列
    • 任务详情
  • 故障排除
    • 概览
  • 政策与规范
    • 服务协议
    • 账号协议
    • 账号注销协议
    • 隐私保护声明
  1. 语音克隆&角色管理

瞬时克隆

在这里了解如何添加一个角色并为其指定一个语音样本来进行瞬时克隆
通过瞬时语音克隆,您只需提供5-30秒任意样本,且无需进行任何数据训练,瞬间即可完成克隆;我们的AI会在生成时即时根据百万小时的经验,尽可能模仿被克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式等特征,且尽可能理解目标文本的上下文,并综合它们来产生最具表现力且最匹配的语音。
目前,您可以通过角色管理页面的"添加角色"按钮,或者在配音工作室页面中选择角色时的弹窗中选择"创建新角色..."按钮来召唤出角色创建面板,并用其来创建一个角色。第一步是选择创建的类型,不同类型的角色在具体的表现力细节上略有差异,算法版本和处理类型的可用性将根据我们当前的维护计划开放。
在开始克隆前,请您务必阅读我们的声明信息并确认,确认同意声明及我们的相关服务协议后,您方可开始创建声音角色。
image.png
同意声明后,点击下一步,进入克隆类型选择界面。
image.png
随后,您需要上传一个音频文件,或录制一段音频,作为本次克隆的默认风格指引样本;这段默认风格样本将用于定义该角色默认的声音表现,包括声线、情感、语速、语调、韵律等(后续您可以在角色详情页中添加更多不同的风格样本)。
image.png
我们为音频上传器添加了简单的音频处理功能,您可以通过此功能快速剪辑用于上传的音频片段。
image.png
image.png
音频上传完成后,请确认您上传的语音样本是否属于算法支持的语言范围。系统将自动识别音频中可支持的语种。如需更精确的识别结果,您也可以手动选择语言类型以获得更佳效果(粤语样本需要手动选择)。
如音频样本存在背景音,您也可以打开“去除背景音”开关,系统将在创建角色时对音频样本进行优化。
image.png
随后,您需要为创建的角色指定一个名称,并可选地指定一段描述以及一个头像。目前,名称、描述和头像仅供展示,不会对使用效果造成影响。
随后在最终页面确认本次创建的相关信息,点击右下角的提交按钮并等待处理完毕即可。
样本质量比长度更重要。有噪音的样本可能会产生不好的结果,请尽可能提供高质量的样本语音。目前,样本语音长度需大于2秒,且文件大小不超过20M。您也可以通过一些音频编辑软件的人声分离/音频降噪/人声美化/响度标准化等功能来尝试从任意音频中获得较高质量的人声音频样本。
V2 系列版本的算法 (V2.9) 仅支持中文与英文,使用 V2 系列算法版本时请确保输入的文本中不包含任何非中英文字符,例如日文韩文等,否则可能会导致生成失败等问题。
自 V3 系列开始,我们除中英文外新增粤语、日语、韩语、法语、德语、西班牙语及葡萄牙语,以及这些语言的共计30余种口音变体;请确保您使用的算法版本及文本内容输入符合对应的支持能力。
关于瞬时克隆样本音频的详细注意事项和最佳实践,请参阅此界面: 注意事项。
修改于 2025-11-25 08:51:33
上一页
概览
下一页
专业克隆
Built with