联合国际顶尖高校昆仑万维开源数字智能体研发工具包AgentStudio

电科技辛雯03-29 20:40

近日，昆仑万维2050全球研究院、新加坡南洋理工大学、苏黎世联邦理工学院研究团队联手开源了数字智能体全流程研发工具包AgentStudio，旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台，让开发者们能够轻松、高效、灵活地构建专属数字智能体。

AgentStudio所提供的工具涵盖数字智能体开发的全部流程，包括智能体观察与动作空间、跨平台的在线环境支持、交互式数据收集与评估、可扩展的任务套件、以及相应的图形界面。此外，研究团队还评估了多个多模态大模型完成数字世界任务的能力。

AgentStudio是一个完全免费的开源项目，项目团队希望通过这一开源努力，与人工智能社区携手加速智能体技术发展，促进前沿知识共享与合作。目前，AgentStudio相关论文、代码、数据、文档已全部公开。

论文标题：AgentStudio: A Toolkit for Building General Virtual Agents

论文链接：https://arxiv.org/abs/2403.17918

项目主页与文档：https://skyworkai.github.io/agent-studio/

开源代码：https://github.com/SkyworkAI/agent-studio

Leaderboard：https://huggingface.co/spaces/Skywork/agent-studio-leaderboard

图片44.png （AgentStudio论文截图）

智能体：大模型产业最前沿

近来，随着大模型技术在自然语言理解、工程能力、数据能力、存储能力等领域的突破，大量以大模型技术驱动的智能体（Agents）不断涌现，在通用性、实用性、可落地性等方面都表现卓越。

不同于传统软件程序，基于大模型能力打造的AI智能体具备感知环境、进行决策、执行动作等能力，并能够通过独立思考、调用工具去逐步完成给定目标，成为当前全球AI大模型领域的关注最前沿。此前，昆仑万维已经推出“天工SkyAgents”AI Agents开发平台，用户可以通过自然语言和简单操作，无需代码编程，即可在几分钟之内部署属于自己的AI Agents。

现如今，在大模型的助力下，数字智能体（virtual agents）可以通过操控手机电脑上的软件帮助人们完成许多日常工作，提高工作效率。

然而，当前数字智能体的进展很大程度上受到了基准环境和数据来源的限制，他们大都仅在简单、受限的场景下评估与演示，从而掩盖了面临的挑战，离真正落地需要的可用性与可靠性仍有较大距离，然而缺乏全面、真实的收集数据环境又阻碍了这些智能体能力的进一步提升。

AgentStudio工具包的开发，正是基于当前人工智能领域对高效、可扩展智能体开发工具的迫切需求。该工具包不仅包括了智能体观察与动作空间的定义工具，还提供了跨平台的在线环境支持，使得开发者可以在不同的平台和设备上进行智能体的开发与测试。此外，AgentStudio还支持交互式数据收集与评估，以及可扩展的任务套件，极大地增强了其实用性和灵活性。

AgentStudio：灵活、通用、可扩展

WX20240329-203730@2x.png

目前，全球有多种数字智能体开发工具包，支持不同的开发环境和应用领域。与现有工具相比，AgentStudio的主要优势在于：

l 可复现、多模态、跨平台的在线环境：AgentStudio支持通过Docker、VNC、FastAPI以及虚拟机等方式便捷地连接包括Windows、MacOS、Linux等各种操作系统与设备，相比现有环境更加注重真实落地场景。·

l 统一的标准化的输入输出：为了支持智能体和尽可能多地各种软件进行交互，AgentStudio采用了最为通用的输入输出方式，既支持像人一样通过观察电脑屏幕的图像作为输入，操作键盘鼠标和命令行作为输出，也支持进行函数调用和使用API，达到通用计算机控制。

l 全面、可扩展、可组合的任务集：AgentStudio包含了在十余个应用上用于全面评估AI智能体完成指令的能力，全方位覆盖各种应用软件，如文档操作、邮件处理、日历使用、音乐播放、视频编辑器、代码编辑器等，涵盖复杂真实应用场景，同时包含了范围从单个底层操作到跨任务的组合性任务的不同难度的多级任务。AgentStudio基于该任务集，公开了相应的leaderboard。

l 完整的智能体数据收集与评估代码：AgentStudio的功能不仅包含了对智能体能力的评估，而且包含了完整开源的数据集收集代码，可用于人工标注数据集，也可用于智能体自行收集经验。

l 关注工具创造与使用：在开放域中的工具创造与使用是AI智能体的核心能力之一。以电脑为例，AgentStudio为智能体提供了最通用的三类工具：键盘、鼠标、与命令行，同时支持智能体进一步在交互过程中自行创造并复用新的工具，如用于创建、修改日历的工具集，实现智能体的不断自我提升。

l 交互式可视化界面: AgentStudio提供用户友好的轻量化GUI界面，帮助用户方便快捷地一键自动化创建任务并搜集数据。以下流程图将直观呈现使用AgentStudio创建任务并收集数据的过程。通过AgentStudio提供的用户友好的界面，用户可以实现跨平台的人工演示的录制，包括输入任务指令、通过交互界面得到坐标、编辑和运行代码、记录智能体轨迹等一系列功能，这些大幅简化了大规模数据收集的难度，为下一代智能体数据规模化提供了基础。

图片45.png 图片46.png 使用AgentStudio创建任务并收集数据以及与环境交互的过程

多维度全面评估

除了搭建工具包外，研究团队还评估了多个多模态大模型完成数字世界任务的能力。为了全面评估智能体的能力，AgentStudio的结果从多个维度入手：

l 图形界面grounding数据集：任务仅包含单步动作，指令为不需要规划的底层操作，主要关注智能体和图形界面交互的能力；

l 日常任务与组合性任务集：任务完成调用复杂API，或需要多步动作、并常常需要跨软件交互。该任务集用于衡量智能体完成日常任务、以及进行复杂动作规划的能力。

AgentStudio的评测结果还进一步分析了现有多模态模型在图形界面grounding数据集表现不佳的可能原因和相应的改进方法，并衡量了模型自我评估的能力，这些都对智能体的自我提升和真实落地至关重要。根据评测结果，研究团队在论文中还讨论了若干有前景的研究方向，包括更通用的图形界面grounding模型和算法、从视频演示中学习等。

WX20240329-203800@2x.png

智能体全流程解决方案

从环境到智能体，从数据到评估，AgentStudio提供了一套完整的解决方案覆盖了构建智能体的全过程，将极大地加速了智能体的发展。AgentStudio的建立在研究团队对智能体、工具调用、代码解释器的深入理解与积累之上。

目前，研究人员已经开源了所有结果，包括环境的实现、智能体数据集、算法实现等，希望帮助人工智能社区搭建更多能够完成复杂任务的AI智能体。欢迎感兴趣的研究与开发者们下载使用，并关注AgentStudio团队其他相关项目。

AgentStudio团队其他相关工作：

Synapse：https://ltzheng.github.io/Synapse

Cradle：https://baai-agents.github.io/Cradle/

FinAgent：https://arxiv.org/abs/2402.18485

电科技（www.diankeji.com）是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者，2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者，曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号

声明：本站原创文章文字版权归电科技所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表电科技立场，图文版权归原作者所有。如有侵权，请联系我们删除。