豆包1.5深度思考模型亮相:MoE架构、多模态、能“看图思考”

电科技袁创2025-04-21 16:24:14

 摘要:

截至2025年3月,豆包大模型日均tokens使用量超12.7万亿,较发布之初增长超106倍。

豆包1.5深度思考模型正式发布

4月17日,火山引擎正式发布豆包1.5·深度思考模型,包含语言版和视觉版。其中语言模型采用MoE架构,总参数为200B,激活参数仅20B。基于高效算法和高性能推理系统,豆包模型API服务在保障高并发的同时,延迟低至20毫秒。

据火山引擎总裁谭待介绍,豆包1.5・深度思考模型(Doubao-1.5-thinking-pro)在数学、代码、科学等专业领域推理任务中表现出色,已经达到或接近全球第一梯队水平。具体而言,数学推理AIME 2024 测试得分追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近o1,在高难度通用人工智能测试ARC-AGI上,其得分更是超过了OpenAI o1和o3-mini-high。

在创意写作、人文知识问答等通用任务上,模型也展示出优秀的泛化能力,能胜任更广泛的使用场景。

豆包1.5大模型

为什么要推出这样一款深度思考模型?

答案是:市场需要。

随着企业AI应用不断深入,行业对AI技术提出了更高要求。人们希望AI能够从单纯的信息处理升级为端到端的任务执行者。比如能完整规划行程并订票、为研究人员生成行业分析报告,甚至为产品经理开发可运行应用。只有实现这些复杂任务处理能力,才能称得上真正的AI Agent。而这一切的背后,最核心的是要有一款强大的模型做支撑,因此也就催生了今天的豆包1.5·深度思考模型。

举个示例感受新模型的深度思考能力:

先来让它分析下复杂的财报,提示词输入:请分析一下可口可乐24财年的收入报告中,不同区域间的差异显著,背后的驱动因素是什么?公司在不同地区的定价策略和产品组合如何影响收入结构?

可以看到它能拆分并理解用户提问,解读英文报表,提炼有效信息,然后基于信息提炼进行深度分析,最终给出详细的解答和建议。

大模型解题

但上述能力,类似的推理模型产品也同样具备,豆包1.5·深度思考模型有什么特别之处?

豆包1.5·深度思考模型专门打造了视觉版,具备视觉理解能力,可以像人类一样,阅读文字,看图片就能进行思考,让模型同时拥有“大脑”和“眼睛”。

例如,让豆包深度思考模型视觉版帮忙阅读菜单然后点餐,提示词输入“一家四口去国外旅行,去餐厅点餐,其中有一位老人和一个孩子,预算800元人民币以内,孩子对海鲜过敏,给推荐一下如何点餐吧1”

模型很快就能理解菜单内容,分析每道菜的组成、照顾不同人的口味和过敏食物,给出预算内的点餐推荐。

Agent元年开启,火山引擎上线超实用工具

2025年被业界视为“Agent智能体元年”。那么,到底什么样的Agent才能在真实世界和数字世界中完成端到端的复杂任务?

首先,模型需要有能力做好思考、计划和反思,而且要一定得支持多模态。因为真实世界的任务需要耳朵、嘴巴和眼睛来共同完成;

其次,要有更好的架构和工具来支持大模型去操作数字和物理世界;

第三,要通过AI云原生,不断降低模型推理的成本和延迟,推动应用普惠。

这就意味着,光有强大的模型还不够,还要有更好的架构和工具来支撑。

为此,火山引擎宣布推出OS Agent解决方案,并演示了由Agent操作浏览器,搜索商品页,实现iPhone比价的任务。

据悉,OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他Agent的操作。其中,豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,突破传统自动化工具依赖预设规则的局限性,为Agent的智能交互提供了更接近人类操作的模型基础。

好的模型和工具能够加速Agent的落地,但Agent也会带来更大量的模型推理消耗。面对大规模推理需求,火山引擎专门打造了AI云原生ServingKit 推理套件,让模型部署更快、推理成本更低,GPU 消耗相比传统方案降低80%。

此外,豆包文生图模型Seedream3.0也正式向企业开放。该模型已在即梦AI、豆包产品上线,并在近期登上权威竞技场Artificial Analysis文生图榜单第一梯队。Seedream3.0支持2K分辨率直出,生图结构准确性、小字生成与排版、美感、真实度等方面具有优势。

日均调用量超12.7万亿,豆包赋能千行百业数智升级

数据显示,截至2025年3月底,豆包大模型日均token调用量已超过12.7万亿,是2024年12月的3倍,是一年前刚刚发布时的106倍。IDC报告显示,2024年中国公有云大模型调用量激增,火山引擎以46.4%的市场份额位居中国市场第一。

这些数据背后,证明了豆包大模型已经凭借卓越的性能和场景化能力,成为众多企业AI转型的核心驱动力。从办公软件、汽车制造到高等教育、金融科技,豆包大模型通过深度合作与创新应用,持续推动各行业生产力变革。

  • 在办公领域,金山办公作为国内办公软件领军企业,基于豆包大模型推出AI智能助手“灵犀”,覆盖文档处理、创意写作、信息检索等场景,未来将进一步拓展至文字、表格、演示、PDF等全办公链路,助力用户提升效率;
  • 在汽车领域,豆包大模型成为智能座舱的“大脑”。梅赛德斯-奔驰通过集成豆包模型,显著提升了信息检索速度和系统响应能力,并在语音交互、导航、娱乐等场景持续探索。目前,近80%的主流汽车品牌选择豆包作为智能化升级合作伙伴。
  • 在教育领域,浙江大学依托火山引擎HiAgent平台和豆包大模型,仅用一周便上线“浙大先生”智能体平台,支持AI科学家、课堂答疑、教务咨询等场景的定制开发,服务超5万名师生。据悉,C9高校中已有六所与火山引擎展开合作。
  • 在金融领域,杭州银行联合火山引擎推出电商生态云“百业云”,通过豆包大模型为中小商家提供智能客服服务,实现7*24小时高准确率响应,重塑金融服务体验。

 

电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者,百度数码年度作者、百家号科技领域最具人气作者、搜狗科技文化作者、百家号季度影响力创作者,曾荣获搜狐最佳行业媒体人、中国新媒体创业大赛北京赛季军、 年度光芒体验大奖、中国新媒体创业大赛总决赛季军、百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号。

声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。

//59087780b049bbb54ef4ba547ea51910