📰 语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率
今天凌晨,微软研究院开源了VibeVoice-1.5B,这是一款创新的音频合成模型,突破了许多技术瓶颈。该模型能够连续合成90分钟的超长语音,而以往的模型通常只能达到60分钟,且存在音色漂移和语义断裂的问题。此外,VibeVoice最多支持4名发言人,而之前的模型仅支持2名。它的压缩效率也非常惊人,能够对24kHz原始音频实现3200倍的累计压缩,同时保持高保真的语音效果。
VibeVoice的技术优势体现在其双tokenizer架构上,分别是声学tokenizer和语义tokenizer。声学tokenizer负责音频特征的提取和压缩,而语义tokenizer则确保文本与语音的语义一致性。这种设计不仅提高了模型的性能,还有效解决了传统模型在音色与语义匹配上的问题。此外,该模型采用预训练的大语言模型Qwen2.5作为核心,能够解析复杂的用户输入并生成后续的上下文状态。
VibeVoice-1.5B的训练过程采用课程学习策略,从小的输入序列逐步增加到长达65536个token,以适应超长音频的需求。这种方法大幅提升了训练效率,缩短了训练周期,同时保证了特征提取模块的稳定性。未来,微软计划开源更大参数的语音模型,继续推动语音合成技术的发展。
🏷️ #微软 #音频模型 #VibeVoice #语音合成 #技术突破
🔗 原文链接
📰 语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率
今天凌晨,微软研究院开源了VibeVoice-1.5B,这是一款创新的音频合成模型,突破了许多技术瓶颈。该模型能够连续合成90分钟的超长语音,而以往的模型通常只能达到60分钟,且存在音色漂移和语义断裂的问题。此外,VibeVoice最多支持4名发言人,而之前的模型仅支持2名。它的压缩效率也非常惊人,能够对24kHz原始音频实现3200倍的累计压缩,同时保持高保真的语音效果。
VibeVoice的技术优势体现在其双tokenizer架构上,分别是声学tokenizer和语义tokenizer。声学tokenizer负责音频特征的提取和压缩,而语义tokenizer则确保文本与语音的语义一致性。这种设计不仅提高了模型的性能,还有效解决了传统模型在音色与语义匹配上的问题。此外,该模型采用预训练的大语言模型Qwen2.5作为核心,能够解析复杂的用户输入并生成后续的上下文状态。
VibeVoice-1.5B的训练过程采用课程学习策略,从小的输入序列逐步增加到长达65536个token,以适应超长音频的需求。这种方法大幅提升了训练效率,缩短了训练周期,同时保证了特征提取模块的稳定性。未来,微软计划开源更大参数的语音模型,继续推动语音合成技术的发展。
🏷️ #微软 #音频模型 #VibeVoice #语音合成 #技术突破
🔗 原文链接