豆包1.5深度思考模型亮相：MoE架构、多模态、能“看图思考”

电科技袁创2025-04-21 16:24:14

摘要：

截至2025年3月，豆包大模型日均tokens使用量超12.7万亿，较发布之初增长超106倍。

豆包1.5深度思考模型正式发布

4月17日，火山引擎正式发布豆包1.5·深度思考模型，包含语言版和视觉版。其中语言模型采用MoE架构，总参数为200B，激活参数仅20B。基于高效算法和高性能推理系统，豆包模型API服务在保障高并发的同时，延迟低至20毫秒。

据火山引擎总裁谭待介绍，豆包1.5・深度思考模型（Doubao-1.5-thinking-pro）在数学、代码、科学等专业领域推理任务中表现出色，已经达到或接近全球第一梯队水平。具体而言，数学推理AIME 2024 测试得分追平OpenAI o3-mini-high，编程竞赛和科学推理测试成绩也接近o1，在高难度通用人工智能测试ARC-AGI上，其得分更是超过了OpenAI o1和o3-mini-high。

在创意写作、人文知识问答等通用任务上，模型也展示出优秀的泛化能力，能胜任更广泛的使用场景。

豆包1.5大模型

为什么要推出这样一款深度思考模型？

答案是：市场需要。

随着企业AI应用不断深入，行业对AI技术提出了更高要求。人们希望AI能够从单纯的信息处理升级为端到端的任务执行者。比如能完整规划行程并订票、为研究人员生成行业分析报告，甚至为产品经理开发可运行应用。只有实现这些复杂任务处理能力，才能称得上真正的AI Agent。而这一切的背后，最核心的是要有一款强大的模型做支撑，因此也就催生了今天的豆包1.5·深度思考模型。

举个示例感受新模型的深度思考能力：

先来让它分析下复杂的财报，提示词输入：请分析一下可口可乐24财年的收入报告中，不同区域间的差异显著，背后的驱动因素是什么？公司在不同地区的定价策略和产品组合如何影响收入结构？

可以看到它能拆分并理解用户提问，解读英文报表，提炼有效信息，然后基于信息提炼进行深度分析，最终给出详细的解答和建议。

大模型解题

但上述能力，类似的推理模型产品也同样具备，豆包1.5·深度思考模型有什么特别之处？

豆包1.5·深度思考模型专门打造了视觉版，具备视觉理解能力，可以像人类一样，阅读文字，看图片就能进行思考，让模型同时拥有“大脑”和“眼睛”。

例如，让豆包深度思考模型视觉版帮忙阅读菜单然后点餐，提示词输入“一家四口去国外旅行，去餐厅点餐，其中有一位老人和一个孩子，预算800元人民币以内，孩子对海鲜过敏，给推荐一下如何点餐吧1”

模型很快就能理解菜单内容，分析每道菜的组成、照顾不同人的口味和过敏食物，给出预算内的点餐推荐。

Agent元年开启，火山引擎上线超实用工具

2025年被业界视为“Agent智能体元年”。那么，到底什么样的Agent才能在真实世界和数字世界中完成端到端的复杂任务？

首先，模型需要有能力做好思考、计划和反思，而且要一定得支持多模态。因为真实世界的任务需要耳朵、嘴巴和眼睛来共同完成；

其次，要有更好的架构和工具来支持大模型去操作数字和物理世界；

第三，要通过AI云原生，不断降低模型推理的成本和延迟，推动应用普惠。

这就意味着，光有强大的模型还不够，还要有更好的架构和工具来支撑。

为此，火山引擎宣布推出OS Agent解决方案，并演示了由Agent操作浏览器，搜索商品页，实现iPhone比价的任务。

据悉，OS Agent解决方案包含豆包UI-TARS模型，以及veFaaS函数服务、云服务器、云手机等产品，实现对代码、浏览器、电脑、手机以及其他Agent的操作。其中，豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起，突破传统自动化工具依赖预设规则的局限性，为Agent的智能交互提供了更接近人类操作的模型基础。

好的模型和工具能够加速Agent的落地，但Agent也会带来更大量的模型推理消耗。面对大规模推理需求，火山引擎专门打造了AI云原生ServingKit 推理套件，让模型部署更快、推理成本更低，GPU 消耗相比传统方案降低80%。

此外，豆包文生图模型Seedream3.0也正式向企业开放。该模型已在即梦AI、豆包产品上线，并在近期登上权威竞技场Artificial Analysis文生图榜单第一梯队。Seedream3.0支持2K分辨率直出，生图结构准确性、小字生成与排版、美感、真实度等方面具有优势。

日均调用量超12.7万亿，豆包赋能千行百业数智升级

数据显示，截至2025年3月底，豆包大模型日均token调用量已超过12.7万亿，是2024年12月的3倍，是一年前刚刚发布时的106倍。IDC报告显示，2024年中国公有云大模型调用量激增，火山引擎以46.4%的市场份额位居中国市场第一。

这些数据背后，证明了豆包大模型已经凭借卓越的性能和场景化能力，成为众多企业AI转型的核心驱动力。从办公软件、汽车制造到高等教育、金融科技，豆包大模型通过深度合作与创新应用，持续推动各行业生产力变革。

在办公领域，金山办公作为国内办公软件领军企业，基于豆包大模型推出AI智能助手“灵犀”，覆盖文档处理、创意写作、信息检索等场景，未来将进一步拓展至文字、表格、演示、PDF等全办公链路，助力用户提升效率；
在汽车领域，豆包大模型成为智能座舱的“大脑”。梅赛德斯-奔驰通过集成豆包模型，显著提升了信息检索速度和系统响应能力，并在语音交互、导航、娱乐等场景持续探索。目前，近80%的主流汽车品牌选择豆包作为智能化升级合作伙伴。
在教育领域，浙江大学依托火山引擎HiAgent平台和豆包大模型，仅用一周便上线“浙大先生”智能体平台，支持AI科学家、课堂答疑、教务咨询等场景的定制开发，服务超5万名师生。据悉，C9高校中已有六所与火山引擎展开合作。
在金融领域，杭州银行联合火山引擎推出电商生态云“百业云”，通过豆包大模型为中小商家提供智能客服服务，实现7*24小时高准确率响应，重塑金融服务体验。

电科技（www.diankeji.com）是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者，百度数码年度作者、百家号科技领域最具人气作者、搜狗科技文化作者、百家号季度影响力创作者，曾荣获搜狐最佳行业媒体人、中国新媒体创业大赛北京赛季军、年度光芒体验大奖、中国新媒体创业大赛总决赛季军、百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号。

声明：本站原创文章文字版权归电科技所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表电科技立场，图文版权归原作者所有。如有侵权，请联系我们删除。