#语言学习

搜索引擎 + AI 驱动的行业新闻

【覆盖行业】
信保｜出口｜金融
制造｜农业｜建筑｜地产
零售｜物流｜数智

【访问入口】
hangyexinwen.com

【新闻分享】
点击发布时间即可分享

【联系我们】
xinbaoren.com
（微信内打开提交表单）

08:50 · 2025年9月4日 · 周四

⁣
📰 Midoo.AI 发布：AI Agent 能否破解教育行业千亿美金的「无解方程」？

随着AI技术的发展，越来越多的人选择通过AI学习语言，传统的学习方式面临着内容僵化和反馈不足等问题。Midoo.AI作为一家初创公司，致力于解决教育行业的核心困境，通过动态个性化和沉浸式场景，提升学习效果。其创始团队拥有丰富的行业经验，目标是创造全球领先的AI语言学习产品。

Midoo.AI的创新之处在于利用大语言模型和Agent技术，提供个性化的学习体验。通过动态生成学习内容，Midoo可以根据用户的兴趣和需求进行定制，解决了传统教育内容供给的局限。同时，沉浸式场景设计让学习者能够在真实的互动环境中练习语言，极大地提高了学习的趣味性和有效性。

Midoo的愿景是让每个人都能拥有一个AI语言导师，推动教育的变革。通过降低学习成本和提升学习体验，Midoo不仅填补了市场空白，也为教育行业的未来提供了新的可能性。AI时代的教育，或许将迎来一个全新的纪元。

🏷️ #AI学习 #语言学习 #教育变革 #个性化 #沉浸式体验

🔗 原文链接

AI学习语言学习教育变革个性化沉浸式体验

14:01 · 2025年8月26日 · 周二

⁣
📰 语音界Sora！微软刚开源新模型，一次生成90分钟语音、3200倍压缩率

今天凌晨，微软研究院开源了VibeVoice-1.5B，这是一款创新的音频合成模型，突破了许多技术瓶颈。该模型能够连续合成90分钟的超长语音，而以往的模型通常只能达到60分钟，且存在音色漂移和语义断裂的问题。此外，VibeVoice最多支持4名发言人，而之前的模型仅支持2名。它的压缩效率也非常惊人，能够对24kHz原始音频实现3200倍的累计压缩，同时保持高保真的语音效果。

VibeVoice的技术优势体现在其双tokenizer架构上，分别是声学tokenizer和语义tokenizer。声学tokenizer负责音频特征的提取和压缩，而语义tokenizer则确保文本与语音的语义一致性。这种设计不仅提高了模型的性能，还有效解决了传统模型在音色与语义匹配上的问题。此外，该模型采用预训练的大语言模型Qwen2.5作为核心，能够解析复杂的用户输入并生成后续的上下文状态。

VibeVoice-1.5B的训练过程采用课程学习策略，从小的输入序列逐步增加到长达65536个token，以适应超长音频的需求。这种方法大幅提升了训练效率，缩短了训练周期，同时保证了特征提取模块的稳定性。未来，微软计划开源更大参数的语音模型，继续推动语音合成技术的发展。

🏷️ #微软 #音频模型 #VibeVoice #语音合成 #技术突破

🔗 原文链接

微软音频模型 VibeVoice 语音合成技术突破