算法介绍

您可以在此处了解关于我们算法版本的介绍，以及相关的优缺点等

我们的悟声语音合成算法已预先经过海量中文及多种语言音频的训练，训练的内容涵盖多种类型，但最多的是有声读物与常规对话音频。如果您提供的克隆音频样本以及目标文本是此类内容，则通常会在生成语音时取得较好的效果。我们的合成算法会尽可能模仿克隆音频样本的语调、语速、情感、停顿、响度、声学环境、呼吸声、口音、发声方式等特征，尽可能理解目标文本的上下文，并综合它们来产生最匹配的语音。

悟声语音合成算法 V3.1

_{发布于2025 年 12 月 6 日，V2 系列角色可手动升级至 V3.1 版本，V3.0-Alpha角色已自动升级}

💡 升级Tips：此前版本的V3.0-Alpha角色已自动升级至此版本，V2.X角色需在详情页的"操作"菜单中手动升级至此新版本。若您在升级某个现有角色后首次生成时等待时间较长，通常为系统正在自动升级该角色，请耐心等待。

对比V3.0-Alpha测试版，此版本带来了全新的专业克隆与音色转换能力，并全面提升了各个场景和语言下的情感表现力、稳定性、相似度、自然度、语义感知能力等，为您带来更为惊艳的音频生成效果。

而对比V2等早期版本，全新的V3系列语音大模型则带来了对全球30余种语言和方言的全面支持，并在情感张力、相似度、稳定性、自然度、语义理解能力等各类表现上对比全球同类产品大幅领先，达到影视级性能。

🎓 全新的专业级语音克隆能力正式上线

您可以提供短至数十秒，长至数小时的声音样本，我们的大模型将会深入训练学习您所提供的声音样本的每一个语调、发音方式、节奏、韵律、发声习惯等各项细节，实现与原声无法区分的顶尖克隆合成效果。

🎤 全新的音色转换能力正式上线

您现在可以将任意音频的音色转换为您所需要的声音，来实现对声音表现细节的精确把控，一人即可配制多个角色。并且，音色转换能力与当前现有的所有语音角色无缝兼容，还支持对歌声进行转换，从而实现歌曲翻唱等相关创作。

🧠 大模型核心能力全面提升

对比V3.0-Alpha测试版，V3.1在面对各个场景和语言的文本与角色时，均能生成情感表现力、稳定性、相似度、自然度、语义感知等能力更强的音频生成结果，让您的声音创作与应用效果更上一层楼。

🔧 产品体验改进与问题修复

除模型更新外，这段时间以来我们还对产品体验进行了全面改进，其中包括但不限于大量UI设计改进与便利性重构、性能优化、问题修复等变更

由于变更量较大且篇幅有限，还望各位在产品使用过程中直接进行体验，也希望大家能够喜欢我们为各位带来的这些新内容。

悟声语音合成算法 V3.0-Alpha

_{发布于2025 年 8 月 26 日，已弃用，V2 系列角色可手动升级至 V3 版本}

悟声语音合成算法 V3.0-Alpha 是我们推出的全新跨度迭代，作为全新阶段的早期公测版本，带来了多项功能更新与能力增强，进一步拓展了语音内容生成的表现力。具体更新如下：

在 V3 版本中，多语言样本及跨语言生成能力已可用，除早期已实现的中英文跨语言能力外，新增支持粤语、日语、韩语、法语、德语、西班牙语及葡萄牙语，以及这些语言的共计30余种口音变体。算法现已可直接处理这些语言的输入与输出。

（需要注意的是，跨语种生成可能会因样本发音而受到影响，使用该功能时建议采用清晰且对应语言的语音，以获得最佳效果。）

表现力与自然度提升，在情感张力、相似度、稳定性、自然度、语义理解能力等多个维度上均显著增强，新增支持多种复杂表现形式，包括嘶吼、Rap、撒娇、ASMR等，在极端情绪与细腻表达上也可进行生成。

新增生动表达优化，支持为单个段落单独启用“生动表达”选项。启用后，算法将基于对内容的理解自动调整语音细节，使语句更具表现力和感染力。（对于部分样本可能会导致结果不稳定）

新增情感比例控制优化，支持针对单个段落设置情感表达比例，可调整语句在生成时呈现出更明确的情绪倾向，如愤怒、开心、伤感等。通过灵活控制情绪权重，算法输出将具备更丰富的情感层次。

背景声学特征复刻优化，样本复刻能力大幅提升，不仅限于人声特征，还可智能还原背景声学特征，包括空间感、混响、音量等，使生成内容更贴近角色原声质感。

悟声语音合成算法 V2.9

发布于2025年3月1日，当前为V2 系列最新版本，此前V2.X角色已自动升级至此兼容版本

悟声语音合成算法的最新版本，此版本引入了大量来自开发中的V3版本的功能与改进，在中文语音内容生成表现上达到了全球范围的SOTA水平，相比此前版本更新内容如下：

大幅提升了非Flash（即高质量模式）下的生成音频质量，且解决了长期以来生成结果可能出现电流镶边感的问题。

大幅提升了非Flash（即高质量模式）下的角色相似度与角色稳定性，且可较大程度上还原角色原音频样本中的声学环境（诸如空间感、混响、音量、录音质感等）。

新增了全新的全球首个角色音色混合能力，可自由指定多个不同角色的音频样本，并自由按照比例对其进行混合，来创造出全新的角色音色。（内部测试中，即将逐步开放）

新增了全新的全球首个角色风格混合能力，在创建新的情感风格时，可以分别指定风格样本与角色样本来进行融合，来创造出全新的角色情感表现；例如，您可以将相声演员的风格与小女孩的角色进行融合，来为这个小女孩角色创造出说相声时的全新情感表现。（内部测试中，即将逐步开放）

新增了全新的零门槛角色智能翻配/翻唱能力，可以直接让现有的指定角色对已经完成的生成结果进行重新翻配，或对您所提供的任意语音或歌曲音频内容进行翻配或翻唱，并在此过程中保留角色的许多风格特点，为您带来更自由的新式音频创作体验。（内部测试中，即将逐步开放）

悟声语音合成算法 V2.5

发布于2024年11月26日，已弃用，对应角色已自动升级至V2.X系列最新版本

我们V2.X系列语音合成算法的第二个正式版，此版本引入了全新的超参数与训练策略，相比此前版本进一步提升了生成结果的自然度、韵律及情感表现，且一定程度上提升了角色的相似度、长篇内容的稳定性、以及英文内容的生成表现。

悟声语音合成算法 V2.1

发布于2024年8月16日，已弃用，对应角色已自动升级至V2.X系列最新版本

我们V2.X系列语音合成算法的首个正式版，此版本在自然情感表现力、生成效果、稳定性、瞬时克隆相似度等各项效果上相比过往版本具有大幅提升，且带来了更快的生成速度与更高的音频质量，改进了英文生成效果，并改善及新增了以下能力：

方言能力支持：得益于悟声超强的人声理解能力，我们现已能够初步提供对部分种类的方言口音支持能力，包括河南话，东北话，重庆话等官话类方言口音及少部分非官话发音。

低延迟播放：V2.1版本的版本Flash处理模式现已支持最短1秒内开始播放生成结果，不限文本长度，满足各类低延迟实时需求。在网页端使用时选择“低延迟模式即可。

更精细的瞬时克隆能力：瞬时克隆模式下，V2.1对于较长样本的理解力相比V1.0版本提升了4倍，能够更深入地模仿较长样本中蕴含的各类表现。

更好的长上下文理解能力：V2.1版本对于较长生成文本的理解能力相比V1.0版本提升了3倍，可一次性理解更多文本，并生成更为贴合且更连贯的声音表现。

Websocket毫秒级生成：我们面向开发者增加了全新的Websocket生成通道，可实现流式生成请求与结果返回，且生成延迟最低可至500ms，足以满足各类高实时性需求。

更快的专业克隆速度：专业克隆的所需时间大幅缩短，对于30分钟的样本，在3-5分钟内即可完成克隆任务。

悟声语音合成算法 V2.0Beta-3

发布于2024年7月8日，已弃用，对应角色已自动升级至V2.X系列最新版本

我们V2.X系列语音合成算法的第三个测试版，相比第二个测试版更进一步拥有以下改进：

电流音杂音问题已得到极大改善，现在对于大部分音色样本应无法感知到明显电流音

稳定性大幅提升，现在对于长篇复杂内容的单次生成稳定性表现应得到较大改进

情感韵律表现获得较大提升，现在对于非过于平淡样本的情感表现应有明显改善，建议搭配包含语气词及口语化表述的文本获得最佳体验

英文表现大幅改进，现基本已达到可用状态

Flash处理流式生成延迟降低50%+，在资源充足情况下可固定在500ms - 1秒内获得可播放的生成结果

采用全新技术策略，并发承载能力大幅提升，应有效改进此前因近期使用量增多导致的拥堵问题

对比V1.0版本的详细更新内容请参见V2.1正式版介绍。

悟声语音合成算法 V2.0Beta-2-Flash

发布于2024年6月25日，已随V2.0Beta-2弃用，后续版本均同步包含对应的Flash处理模式

悟声语音合成算法的首个低延迟Flash分支版本，由V2.0Beta-2衍生而来且互相兼容，带来了低延迟的生成时流式播放体验，但相比主要算法流程的音频质量会有所下降；在资源充足的情况下，任意长度的内容通过该版本Flash处理均可实现在提交任务后1-2秒内即可开始聆听生成结果。

悟声语音合成算法 V2.0Beta-2

发布于2024年6月18日，已弃用，对应角色已自动升级至V2.X系列最新版本

我们V2.X系列语音合成算法的第二个测试版，在稳定性、可用性、音频质量等各个方面相比第一个测试版均有进一步提升与改进。对比V1.0版本的详细更新内容请参见V2.1正式版介绍。

悟声语音合成算法 V2.0Beta-1

发布于2024年6月10日，已弃用，对应角色已自动升级至V2.X系列最新版本

我们V2.X系列语音合成算法的首个测试版，此版本的生成效果，稳定性、瞬时克隆相似性、生成速度与音频质量相比V1.0版本有较大提升，但此时仍存在较多问题。对比V1.0版本的详细更新内容请参见V2.1正式版介绍。

悟声语音合成算法 V1.0

发布于2024年1月11日，现已停止维护，以下内容仅供参考，不支持创建新V1.0角色；现有V1.0瞬时克隆角色可继续生成或一键升级至V2.X版本。

我们首个正式发布的算法版本，可一定程度上理解文本上下文，并以与真人几乎无异的表现力、情感、韵律和音色来基于文本生成人声音频，并且支持以极短样本进行瞬时语音克隆。该版本合成算法还带来了对英文语音合成及克隆的实验性支持，但目前相较中文的稳定性与表现力可能较差。

悟声语音合成算法 V0.9Beta

发布于2023年11月，已弃用，对应角色已自动升级至V1.X系列最新版本

我们的第一个公开发布的实验性语音合成算法，也是全球首个具有中文本土化自然表现的生成式语音合成算法。此合成算法可以以接近真人的语速、语调和语气来生成语音，更能模仿情绪上的变化，让AI更加接近人类，并且支持瞬时语音克隆技术。目前仅支持中文。

此版本的语音算法(V0.9)仍然处于早期测试阶段，存在较多已知问题。

悟声语音合成算法 V3.1#

🎓 全新的专业级语音克隆能力正式上线#

🎤 全新的音色转换能力正式上线#

🧠 大模型核心能力全面提升#

🔧 产品体验改进与问题修复#

悟声语音合成算法 V3.0-Alpha #

悟声语音合成算法 V2.9 #

悟声语音合成算法 V2.5 #

悟声语音合成算法 V2.1 #

悟声语音合成算法 V2.0Beta-3 #

悟声语音合成算法 V2.0Beta-2-Flash #

悟声语音合成算法 V2.0Beta-2 #

悟声语音合成算法 V2.0Beta-1 #

悟声语音合成算法 V1.0 #

悟声语音合成算法 V0.9Beta #