搜索引擎 + AI 驱动的行业新闻
hangyexinwen.com

【行业入口】(子域名访问)
信保 xinbao|金融 jinrong|出口 chukou
制造 zhizao|农业 nongye|零售 lingshou
物流 wuliu|建筑 jianzhu|地产 dichan|数智 shuzhi

【访问方式】
行业简称.hangyexinwen.com,如
xinbao.hangyexinwen.com

【联系我们】(仅微信内打开)
xinbaoren.com

📰 深圳机器人企业竞晒“订单”的背后

近期,中国机器人行业迎来了一波订单热潮,深圳的优必选等企业纷纷刷新订单纪录,显示出市场的强劲需求。优必选的WalkerS2人形机器人以2.5亿元的订单成为全球单笔订单的新纪录,其他企业如众擎和乐聚也在各自细分领域取得了显著成绩。这一现象反映了中国作为全球最大机器人市场的地位,技术突破与政策红利共同推动了行业的发展。

然而,尽管订单量大幅增长,行业内部仍存在一些隐忧。大额订单主要集中在工业场景,消费级市场的拓展面临挑战。C端市场的产品适配性不足,真正能够进入家庭的机器人仍然稀少。此外,产能和人才短缺也成为制约行业发展的关键因素,交付能力的考验逐渐显现。尽管如此,随着技术的不断进步和市场需求的增加,未来的机器人产业依然充满希望。

整体来看,中国机器人行业在技术和市场的双重推动下,正处于快速发展的阶段。尽管面临诸多挑战,但随着政策支持和资本的注入,行业的潜力依然巨大。未来,如何解决产能、人才和市场适配性的问题,将是推动行业持续健康发展的关键。随着更多企业的参与和技术的不断创新,机器人行业有望迎来更加辉煌的明天。

🏷️ #机器人 #订单潮 #技术突破 #市场需求 #产业挑战

🔗 原文链接

📰 语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率

今天凌晨,微软研究院开源了VibeVoice-1.5B,这是一款创新的音频合成模型,突破了许多技术瓶颈。该模型能够连续合成90分钟的超长语音,而以往的模型通常只能达到60分钟,且存在音色漂移和语义断裂的问题。此外,VibeVoice最多支持4名发言人,而之前的模型仅支持2名。它的压缩效率也非常惊人,能够对24kHz原始音频实现3200倍的累计压缩,同时保持高保真的语音效果。

VibeVoice的技术优势体现在其双tokenizer架构上,分别是声学tokenizer和语义tokenizer。声学tokenizer负责音频特征的提取和压缩,而语义tokenizer则确保文本与语音的语义一致性。这种设计不仅提高了模型的性能,还有效解决了传统模型在音色与语义匹配上的问题。此外,该模型采用预训练的大语言模型Qwen2.5作为核心,能够解析复杂的用户输入并生成后续的上下文状态。

VibeVoice-1.5B的训练过程采用课程学习策略,从小的输入序列逐步增加到长达65536个token,以适应超长音频的需求。这种方法大幅提升了训练效率,缩短了训练周期,同时保证了特征提取模块的稳定性。未来,微软计划开源更大参数的语音模型,继续推动语音合成技术的发展。

🏷️ #微软 #音频模型 #VibeVoice #语音合成 #技术突破

🔗 原文链接
 
 
Back to Top