← 返回

微软发布三大基础AI模型 加速构建多模态人工智能生态

2026年4月2日,微软AI实验室宣布推出三款全新基础AI模型:MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2,分别用于语音转文本、语音生成和视频生成。其中,MAI-Transcribe-1支持25种语言,处理速度比Azure Fast快2.5倍;MAI-Voice-1可一秒生成60秒音频并支持自定义音色;MAI-Image-2已先期在MAI Playground上线,现全面接入Microsoft Foundry。这些模型由微软MAI超级智能团队开发,该团队由微软AI首席执行官穆斯塔法·苏莱曼领导,于2025年11月成立。微软强调其AI以“以人为本”,并...

微软发布三大基础AI模型 加速构建多模态人工智能生态

2026年4月2日,微软AI实验室宣布推出三款全新基础AI模型,旨在强化其在多模态人工智能领域的竞争力。新发布的模型包括MAI-Transcribe-1MAI-Voice-1MAI-Image-2,分别支持语音转文本、语音生成和视频生成功能。

MAI-Transcribe-1可将25种语言的语音实时转换为文本,处理速度比微软Azure Fast服务快2.5倍。MAI-Voice-1支持用户在一秒内生成60秒音频,并可创建个性化语音模型。MAI-Image-2为视频生成模型,此前已于3月19日在MAI Playground平台上线,现全面接入Microsoft Foundry平台,同时语音和转录模型也已在该平台开放。

这些模型由微软MAI超级智能团队研发,该团队由微软AI首席执行官穆斯塔法·苏莱曼领导,成立于2025年11月。苏莱曼在博客中强调,微软致力于打造“以人为本”的人工智能,优化人类实际沟通方式,注重实用性。他同时预告,未来将有更多模型陆续在Foundry及微软产品中推出。

微软在公告中指出,新模型在成本上具备优势,相比谷歌和OpenAI同类产品更具性价比。具体定价为:MAI-Transcribe-1每小时0.36美元;MAI-Voice-1每百万字符22美元;MAI-Image-2文本输入每百万token 5美元,图像输出每百万token 33美元。

尽管推出自有AI模型,微软仍重申与OpenAI的长期合作关系。据VentureBeat报道,苏莱曼表示,近期双方已重新谈判合作条款,使微软得以更自由地推进超级智能研究。微软已向OpenAI投资超过130亿美元,同时在芯片领域采取自研与外部采购并行策略,以保障技术自主与供应链稳定。

编辑点评

此次微软发布三大基础AI模型,标志着其在人工智能领域从依赖外部合作向自主技术布局的战略深化。尽管仍与OpenAI保持深度合作,但通过MAI超级智能团队的独立研发,微软意图在多模态AI市场建立差异化竞争优势,特别是在语音、视频生成等高价值应用场景。此举呼应了全球科技巨头加速AI基础设施自主化的趋势,如谷歌、亚马逊、Meta等均在构建自有模型栈。该事件的国际意义在于,它可能加剧全球AI技术生态的分化,推动企业从单一模型供应商向多模态、低成本、高定制化AI解决方案的转型。长远看,这或影响云计算、内容生成、人机交互等领域的全球产业格局。同时,成本优势策略可能对中小开发者和企业客户产生吸引力,促进AI技术更广泛落地。

相关消息:https://techcrunch.com/2026/04/02/microsoft-takes-on-ai-rivals-with-three-new-foundational-models/
当日日报:查看 2026年04月03日 当日日报