表现力与自然度提升,在情感张力、相似度、稳定性、自然度、语义理解能力等多个维度上均显著增强,新增支持多种复杂表现形式,包括嘶吼、Rap、撒娇、ASMR等,在极端情绪与细腻表达上也可进行生成。
新增生动表达优化,支持为单个段落单独启用“生动表达”选项。启用后,算法将基于对内容的理解自动调整语音细节,使语句更具表现力和感染力。(对于部分样本可能会导致结果不稳定)
新增情感比例控制优化,支持针对单个段落设置情感表达比例,可调整语句在生成时呈现出更明确的情绪倾向,如愤怒、开心、伤感等。通过灵活控制情绪权重,算法输出将具备更丰富的情感层次。
背景声学特征复刻优化,样本复刻能力大幅提升,不仅限于人声特征,还可智能还原背景声学特征,包括空间感、混响、音量等,使生成内容更贴近角色原声质感。
大幅提升了非Flash(即高质量模式)下的生成音频质量,且解决了长期以来生成结果可能出现电流镶边感的问题。
大幅提升了非Flash(即高质量模式)下的角色相似度与角色稳定性,且可较大程度上还原角色原音频样本中的声学环境(诸如空间感、混响、音量、录音质感等)。
新增了全新的全球首个角色音色混合能力,可自由指定多个不同角色的音频样本,并自由按照比例对其进行混合,来创造出全新的角色音色。(内部测试中,即将逐步开放)
新增了全新的全球首个角色风格混合能力,在创建新的情感风格时,可以分别指定风格样本与角色样本来进行融合,来创造出全新的角色情感表现;例如,您可以将相声演员的风格与小女孩的角色进行融合,来为这个小女孩角色创造出说相声时的全新情感表现。(内部测试中,即将逐步开放)
新增了全新的零门槛角色智能翻配/翻唱能力,可以直接让现有的指定角色对已经完成的生成结果进行重新翻配,或对您所提供的任意语音或歌曲音频内容进行翻配或翻唱,并在此过程中保留角色的许多风格特点,为您带来更自由的新式音频创作体验。(内部测试中,即将逐步开放)
方言能力支持:得益于悟声超强的人声理解能力,我们现已能够初步提供对部分种类的方言口音支持能力,包括河南话,东北话,重庆话等官话类方言口音及少部分非官话发音。
低延迟播放:V2.1版本的版本Flash处理模式现已支持最短1秒内开始播放生成结果,不限文本长度,满足各类低延迟实时需求。在网页端使用时选择“低延迟模式即可。
更精细的瞬时克隆能力:瞬时克隆模式下,V2.1对于较长样本的理解力相比V1.0版本提升了4倍,能够更深入地模仿较长样本中蕴含的各 类表现。
更好的长上下文理解能力:V2.1版本对于较长生成文本的理解能力相比V1.0版本提升了3倍,可一次性理解更多文本,并生成更为贴合且更连贯的声音表现。
Websocket毫秒级生成:我们面向开发者增加了全新的Websocket生成通道,可实现流式生成请求与结果返回,且生成延迟最低可至500ms,足以满足各类高实时性需求。
更快的专业克隆速度:专业克隆的所需时间大幅缩短,对于30分钟的样本,在3-5分钟内即可完成克隆任务。
电流音杂音问题已得到极大改善,现在对于大部分音色样本应无法感知到明显电流音
稳定性大幅提升,现在对于长篇复杂内容的单次生成稳定性表现应得到较大改进
情感韵律表现获得较大提升,现在对于非过于平淡样本的情感表现应有明显改善,建议搭配包含语气词及口语化表述的文本获得最佳体验
Flash处理流式生成延迟降低50%+,在资源充足情况下可固定在500ms - 1秒内获得可播放的生成结果
采用全新技术策略,并发承载能力大幅提升,应有效改进此前因近期使用量增多导致的拥堵问题