当全球最强全模态大模型开始说“人话”，AI产业落地才有了新方向

电科技袁创2025-03-28 09:54:01

阿里通义千问又整了一个大新闻。

昨日凌晨，一款只有70亿参数的Qwen2.5-Omni“小模型”悄悄上线，并在权威的多模态融合任务评测OmniBench中，一举刷新了业界纪录，超越了谷歌Gemini-1.5-Pro等众多同类模型。

Qwen2.5-Omni-7B

说Qwen2.5-Omni-7B这个大模型“小”，还是因为它的尺寸，仅有70亿参数，但它却是时下全球性能最强的端到端全模态大模型，能够同时处理文本、图像、音频、视频等多种模态信息，并实时输出文本与自然语音，而且，在seed-tts-eval语音生成基准测试中，展现出与人类水平相当的语音合成能力。

自从阿里在QwQ-32B这款“小而强”的大模型上看到了适用性的巨大潜力以来，把模型做“小”，增强端侧的普适性似乎就成了阿里在大模型这条赛道上的主攻方向。

能放进手机里的大模型

在过去的数月间，我们已经见到了太多装着满血大模型的洗衣机、电冰箱、电饭锅，乃至中药泡脚桶。就像电动机刚出现的时候那样，不管有用没用，所有的东西都要来一遍电气化，这个时间持续了上百年。就像王坚院士所言，电动汽车，是人类电气化改造的最后一个行业。

大模型的发展路径似乎亦是如此，当羊毛大衣也开始打出大模型广告的时候，沸腾且喧嚣的行业也就到了归纳总结换方向的时候了，大模型产业的落地，从是否有接入为标准，一步进化到接入后有没有用的新范式。

阿里通义Qwen2.5-Omni-7B可能就是理顺这一切的关键工具。它从需求侧出发，采用了Thinker-Talker架构，前者类似人类大脑，负责处理和理解来自文本、音频、视频等多模态输入信息，后者则是嘴巴，以流式的方式接收Thinker实时输出的语义表征与文本，然后合成离散语音tokens，由此就实现了语义理解与语音生成的高效协同。简而言之，因为它，大模型开始会说“人话”了。

Qwen2.5-Omni-7B

大模型会说话有多重要呢，至少情绪价值是给足了。

比如你找不到路了，它会告诉你，“先别太慌，看看有没有其它办法，让你快点儿到会议室”，随后给你制定一条最快达到的路线。

再或者，当你不确定超市里售卖的零食有没有“科技和狠活”的时候，它也能从配料表里分析个头头是道，指导你的膳食健康。

Qwen2.5-Omni-7B

当然了，这些都是最日常的应用，并不能完全展现Qwen2.5-Omni-7B的实力。在更多专业领域，它在语音理解、视频理解、语音生成等领域的测评分数，均领先于专门的Audio或VL模型，且4.51的语音生成测评分数已经达到了与人类持平的能力。换言之，有了这款大模型，真正的自然语音人机对话就成为了现实。

Qwen2.5-Omni-7B

如果你是一名音乐爱好者，你甚至可以对着它弹奏，然后让它给出指导意见，进一步精进自己的吉他技术。而在此之前，大部分大模型所能做的，还需要先上传录音，然后它再通过文本的方式输出指导意见。

这种方式当然也很“智能”，只是从用户的感受角度来说，似乎远远不够“酷”。而Qwen2.5-Omni-7B则不一样，它因为优化了实时交互能力，支持即时输出，你问什么它就能答什么，展现出了极强的实用性——你不会觉着自己是在和机器对话，而是一个真正的朋友。

不知道你有没有注意到，在上述的例子中，Qwen2.5-Omni-7B一直都是以手机的形态在出现，这恰恰就是它最强的地方，甚至于比模型参数的尺寸还要重要的多。

因为它足够小巧，能装进手机，所以在适用性上一下子多了无数的场景，又因为它能说“人话”，在能力展现上又多出了一个维度的可能性。

据可靠消息，目前除了在苹果手机上，Qwen2.5-Omni-7B主导着手机“智能”的一面，在国内其它90%的手机上，背后都有它的身影，不管是旅行时问餐馆旅店，还是阅读论文做计算，Qwen2.5-Omni-7B都会“听声”而出。

为什么苹果及其它手机品牌会选择Qwen2.5-Omni-7B来合作，根本原因还是大模型的效率问题，手机太小，性能和续航也极其有限，必须要把有限的资源放在最重要的地方。

在以往，很多大模型也能根据文本或者语音、视频输出对话，但它们都是通过各个不同的相对应的模型来实现的。好比你去超市买东西，牛奶在一个区，饼干在一个区，洗发水又在另一个区，要实现这三件目标，相互独立的单链路模型首先就得去这三个地方分别提取商品（理解语义），然后再分别输出给你，Qwen2.5-Omni-7B就不一样了，你只要在超市门口喊一嗓子，“我要牛奶饼干洗发水”，屏幕和喇叭马上输出出全部你想要的内容。

正是因为用一个模型打通“听、说、看”的全链路特性，Qwen2.5-Omni-7B才获得了手机厂商们的集体青睐，并且成为了全球性能最强的端到端全模态大模型。

全模态革命，Qwen2.5-Omni-7B重构未来产业图景

AI大模型亟需要落地。

Qwen2.5-Omni-7B的出现正是AI这一核心价值的具体展现，事实上，AI的深层次价值就是在于更贴近人类认知和现实世界的需求，这不仅是迈向AGI（通用人工智能）的必经之路，也是大模型发展的必然趋势。

在迈向这一远景的征途中，除了手机以外，以Qwen2.5-Omni-7B为代表的大模型第一个改变的就应该是智能硬件产业，其70亿参数的尺寸使其非常适合在端侧部署，打造出更智能、更便捷的用户体验。

比如扫地机器人可以依靠该模型完成复杂任务，不再被桌腿卡住而哇哇乱叫一整天；冰箱和烟机灶具联手，通过食材主动推荐菜谱并完成烹饪程序；AR眼镜以此实现更自然的语音交互和实时信息获取，彻底改造它的使用场景。

此外，学生可以通过语音提问、文字输入以及上传相关的图像或视频资料等方式与模型进行交互，Qwen2.5-Omni-7B则够根据这些多模态输入，及时解答学生的问题，并提供针对性的学习建议和辅导资料。这不仅有助于提高学生的学习兴趣和积极性，还能帮助教师更好地了解学生的学习需求，优化教学过程，提升教育质量。

医疗领域一直是人工智能应用的重要场景之一。能够同时处理文本、图像、音频、视频等多种模态信息，这使得Qwen2.5-Omni-7B在医疗诊断方面具备了巨大优势。医生可以借助该模型，综合分析患者的病历文本、医学影像、语音描述等多模态数据，从而更全面地了解病情，提高诊断的准确性和效率。

例如，在分析X光片、CT影像等医学图像时，Qwen2.5-Omni-7B能够快速识别出异常区域，并结合患者的病史和其他相关信息，为医生提供更精准的诊断建议。它还可以根据患者的个体特征和病情发展，辅助制定个性化的治疗方案，推动医疗行业向更加精准、高效的个性化医疗时代迈进。

总之，Qwen2.5-Omni-7B作为一款性能卓越的全模态大模型，其在医疗、教育、智能硬件、电商、金融等多个行业都具有广阔的应用前景和变革潜力。随着技术的不断进步和应用场景的不断拓展，Qwen2.5-Omni-7B必将为各行业带来更多的创新机遇，推动产业的智能化升级和高质量发展，为人们的生活和社会的进步创造更大的价值。

电科技（www.diankeji.com）是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者，百度数码年度作者、百家号科技领域最具人气作者、搜狗科技文化作者、百家号季度影响力创作者，曾荣获搜狐最佳行业媒体人、中国新媒体创业大赛北京赛季军、年度光芒体验大奖、中国新媒体创业大赛总决赛季军、百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号。

声明：本站原创文章文字版权归电科技所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表电科技立场，图文版权归原作者所有。如有侵权，请联系我们删除。