注意事项

关于语音克隆的一些注意事项以及最佳实践

瞬时克隆/风格引导样本注意事项

如概览中所述，如果您提供的声音样本较为独特，我们的AI曾经没有学习过类似的声音，则可能导致较差的生成结果，或无法较好的复刻该声音。

样本质量比长度更重要。有噪音的样本可能会产生不好的结果，请尽可能提供高质量的样本语音。目前，样本语音长度需大于2秒，且文件大小不超过20M。您也可以通过一些音频编辑软件的人声分离/音频降噪/人声美化/响度标准化等功能来尝试从任意音频中获得较高质量的人声音频样本。

我们建议您通常使用10-20秒的清晰语音音频即可，且不应包含任何混响，回声，背景噪音以取得最佳效果。且对于音频文件的质量，我们推荐您使用源码率为128kbps或以上的音频来确保携带尽量完整的信息。

在开始您的专业克隆前，您需要准备用于克隆的单个或多个音频样本文件。

音频样本文件需要符合以下要求：

所有音频样本文件相加的总时长至少为1分钟，最多60分钟；在该范围内，总时长越大，克隆效果越佳。

每个音频文件都需要为wav/mp3/mp4（建议转为音频）/flac/m4a/ogg格式。

请确保尽可能提供高质量的音频，且确保音频中包含可被识别的语句（有关支持的语言，请参见算法介绍）。同时，您需要避免音频中出现严重噪声、多个说话人等干扰。

音频样本文件准备完毕后，您可手动选择音频文件或拖动到上传框，也可打包为未加密的Zip格式压缩包，系统将自动统合整理样本文件。上传的文件总大小最大不能超过256MB。

我们的AI语音合成算法将尝试模仿它在音频中听到的所有内容，例如说话人的语调、语速、口音、呼吸方式、力度、背景噪音、人声噪音、迟疑停顿等其它所有一切。这意味着如果样本音频中包含相关信息，均有可能被AI模仿并表现于最终合成中。

也就是说，如果您用缓慢，平淡的声音说话，最终结果通常也会如此；或者您用激动，快速的方式说话，AI也会尝试对其进行模仿。

非常重要的一点是，我们建议您尽可能在各方面确保整段语音样本中语音表现的一致性，如果样本前2秒的表现是激动并快速的，那后续几秒也需要尽可能保持相似的表现，包括语调，语速，音量等各方面。如果您在同一段语音样本中表现波动过大，则有可能使AI感到困惑，并在每次生成时产生更为不可预测的结果。

总的来说：

声音的表现本身、口音以及录音的质量会大幅影响克隆的最终效果

对于瞬时克隆，音频的长度对合成质量的影响并不大，但我们建议至少保证五秒长度以包含足够的信息

尽可能保持整段音频样本中语音表现和录音质量的一致性，避免在同一段中出现过大的变化

音频的音量也可能会被AI复刻，因此我们建议您调整至合理的音量平衡范围，以避免声音过大或过小

V2 系列版本的算法 (V2.9) 仅支持中文与英文，使用 V2 系列算法版本时请确保输入的文本中不包含任何非中英文字符，例如日文韩文等，否则可能会导致生成失败等问题。

自 V3 系列开始，我们除中英文外新增粤语、日语、韩语、法语、德语、西班牙语及葡萄牙语，以及这些语言的共计30余种口音变体；请确保您使用的算法版本及文本内容输入符合对应的支持能力。