当全球最强全模态大模型开始说“人话”,AI产业落地才有了新方向

电科技袁创2025-03-28 09:54:01

阿里通义千问又整了一个大新闻。

昨日凌晨,一款只有70亿参数的Qwen2.5-Omni“小模型”悄悄上线,并在权威的多模态融合任务评测OmniBench中,一举刷新了业界纪录,超越了谷歌Gemini-1.5-Pro等众多同类模型。

Qwen2.5-Omni-7B

Qwen2.5-Omni-7B这个大模型“小”,还是因为它的尺寸,仅有70亿参数,但它却是时下全球性能最强的端到端全模态大模型,能够同时处理文本、图像、音频、视频等多种模态信息,并实时输出文本与自然语音,而且,在seed-tts-eval语音生成基准测试中,展现出与人类水平相当的语音合成能力。

自从阿里在QwQ-32B这款“小而强”的大模型上看到了适用性的巨大潜力以来,把模型做“小”,增强端侧的普适性似乎就成了阿里在大模型这条赛道上的主攻方向。

能放进手机里的大模型

在过去的数月间,我们已经见到了太多装着满血大模型的洗衣机、电冰箱、电饭锅,乃至中药泡脚桶。就像电动机刚出现的时候那样,不管有用没用,所有的东西都要来一遍电气化,这个时间持续了上百年。就像王坚院士所言,电动汽车,是人类电气化改造的最后一个行业。

大模型的发展路径似乎亦是如此,当羊毛大衣也开始打出大模型广告的时候,沸腾且喧嚣的行业也就到了归纳总结换方向的时候了,大模型产业的落地,从是否有接入为标准,一步进化到接入后有没有用的新范式。

阿里通义Qwen2.5-Omni-7B可能就是理顺这一切的关键工具。它从需求侧出发,采用了Thinker-Talker架构,前者类似人类大脑,负责处理和理解来自文本、音频、视频等多模态输入信息,后者则是嘴巴,以流式的方式接收Thinker实时输出的语义表征与文本,然后合成离散语音tokens,由此就实现了语义理解与语音生成的高效协同。简而言之,因为它,大模型开始会说“人话”了。

Qwen2.5-Omni-7B

大模型会说话有多重要呢,至少情绪价值是给足了。

比如你找不到路了,它会告诉你,“先别太慌,看看有没有其它办法,让你快点儿到会议室”,随后给你制定一条最快达到的路线。

再或者,当你不确定超市里售卖的零食有没有“科技和狠活”的时候,它也能从配料表里分析个头头是道,指导你的膳食健康。

Qwen2.5-Omni-7B

当然了,这些都是最日常的应用,并不能完全展现Qwen2.5-Omni-7B的实力。在更多专业领域,它在语音理解、视频理解、语音生成等领域的测评分数,均领先于专门的Audio或VL模型,且4.51的语音生成测评分数已经达到了与人类持平的能力。换言之,有了这款大模型,真正的自然语音人机对话就成为了现实。

Qwen2.5-Omni-7B

Qwen2.5-Omni-7B

如果你是一名音乐爱好者,你甚至可以对着它弹奏,然后让它给出指导意见,进一步精进自己的吉他技术。而在此之前,大部分大模型所能做的,还需要先上传录音,然后它再通过文本的方式输出指导意见。

这种方式当然也很“智能”,只是从用户的感受角度来说,似乎远远不够“酷”。而Qwen2.5-Omni-7B则不一样,它因为优化了实时交互能力,支持即时输出,你问什么它就能答什么,展现出了极强的实用性——你不会觉着自己是在和机器对话,而是一个真正的朋友。

不知道你有没有注意到,在上述的例子中,Qwen2.5-Omni-7B一直都是以手机的形态在出现,这恰恰就是它最强的地方,甚至于比模型参数的尺寸还要重要的多。

因为它足够小巧,能装进手机,所以在适用性上一下子多了无数的场景,又因为它能说“人话”,在能力展现上又多出了一个维度的可能性。

据可靠消息, 目前除了在苹果手机上,Qwen2.5-Omni-7B主导着手机“智能”的一面,在国内其它90%的手机上,背后都有它的身影,不管是旅行时问餐馆旅店,还是阅读论文做计算,Qwen2.5-Omni-7B都会“听声”而出。

为什么苹果及其它手机品牌会选择Qwen2.5-Omni-7B来合作,根本原因还是大模型的效率问题,手机太小,性能和续航也极其有限,必须要把有限的资源放在最重要的地方。

在以往,很多大模型也能根据文本或者语音、视频输出对话,但它们都是通过各个不同的相对应的模型来实现的。好比你去超市买东西,牛奶在一个区,饼干在一个区,洗发水又在另一个区,要实现这三件目标,相互独立的单链路模型首先就得去这三个地方分别提取商品(理解语义),然后再分别输出给你,Qwen2.5-Omni-7B就不一样了,你只要在超市门口喊一嗓子,“我要牛奶饼干洗发水”,屏幕和喇叭马上输出出全部你想要的内容。

正是因为用一个模型打通“听、说、看”的全链路特性,Qwen2.5-Omni-7B才获得了手机厂商们的集体青睐,并且成为了全球性能最强的端到端全模态大模型。

全模态革命,Qwen2.5-Omni-7B重构未来产业图景

AI大模型亟需要落地。

Qwen2.5-Omni-7B的出现正是AI这一核心价值的具体展现,事实上,AI的深层次价值就是在于更贴近人类认知和现实世界的需求,这不仅是迈向AGI(通用人工智能)的必经之路,也是大模型发展的必然趋势。

在迈向这一远景的征途中,除了手机以外,以Qwen2.5-Omni-7B为代表的大模型第一个改变的就应该是智能硬件产业,其70亿参数的尺寸使其非常适合在端侧部署,打造出更智能、更便捷的用户体验。

比如扫地机器人可以依靠该模型完成复杂任务,不再被桌腿卡住而哇哇乱叫一整天;冰箱和烟机灶具联手,通过食材主动推荐菜谱并完成烹饪程序;AR眼镜以此实现更自然的语音交互和实时信息获取,彻底改造它的使用场景。

此外,学生可以通过语音提问、文字输入以及上传相关的图像或视频资料等方式与模型进行交互,Qwen2.5-Omni-7B则够根据这些多模态输入,及时解答学生的问题,并提供针对性的学习建议和辅导资料。这不仅有助于提高学生的学习兴趣和积极性,还能帮助教师更好地了解学生的学习需求,优化教学过程,提升教育质量。

医疗领域一直是人工智能应用的重要场景之一。能够同时处理文本、图像、音频、视频等多种模态信息,这使得Qwen2.5-Omni-7B在医疗诊断方面具备了巨大优势。医生可以借助该模型,综合分析患者的病历文本、医学影像、语音描述等多模态数据,从而更全面地了解病情,提高诊断的准确性和效率。

例如,在分析X光片、CT影像等医学图像时,Qwen2.5-Omni-7B能够快速识别出异常区域,并结合患者的病史和其他相关信息,为医生提供更精准的诊断建议。它还可以根据患者的个体特征和病情发展,辅助制定个性化的治疗方案,推动医疗行业向更加精准、高效的个性化医疗时代迈进。

总之,Qwen2.5-Omni-7B作为一款性能卓越的全模态大模型,其在医疗、教育、智能硬件、电商、金融等多个行业都具有广阔的应用前景和变革潜力。随着技术的不断进步和应用场景的不断拓展,Qwen2.5-Omni-7B必将为各行业带来更多的创新机遇,推动产业的智能化升级和高质量发展,为人们的生活和社会的进步创造更大的价值。

 

电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者,百度数码年度作者、百家号科技领域最具人气作者、搜狗科技文化作者、百家号季度影响力创作者,曾荣获搜狐最佳行业媒体人、中国新媒体创业大赛北京赛季军、 年度光芒体验大奖、中国新媒体创业大赛总决赛季军、百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号。

声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。

//59087780b049bbb54ef4ba547ea51910