诚信为本,市场在变,诚信永远不变...
华体会hth(中国)官方网站

咨询热线

023-62457490

新闻资讯

023-62457490
联系人:张生
电话:023-62457490
传真:023-62457490
手机:18584563942
邮箱:admin@youweb.com
地址:重庆市南岸区南坪正街16号7层

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控

发布时间:2025-02-04 19:42:35 丨 浏览次数:

  五金新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了!

  研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数:

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图1)

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图2)

  而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。

  它可以在Amazon和Apple官方网站上成功完成下单购物的任务,选择颜色配置、填写地址都轻松拿捏。

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图3)

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图4)

  模型还成功完成了在Apple Music添加歌曲、编辑Excel数据、在App Store安装应用等自动任务。

  虽然界面设计和跳转逻辑更加复杂,它还是能智能地理解任务的最终目标,真是一个成熟的好AI(欣慰)!

  此外,它还可以在Outook中转发邮件、调整Word布局、设置PowerPoint背景设置和插入三角形形状等等,这下真的可以大大增强生产力了(AI无用论 -1)。

  除了《崩坏:星穹铁道》,模型也可以自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等等。

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图5)

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图6)

  具体来说,团队基于Claude Computer Use的API设计了一个自动化GUI框架,主要分为以下6个部分:

  Claude Computer Use的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图7)

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图8)

  Claude Computer Use通过实时截图观察环境,不依赖元数据或HTML。每个时间步长过后,模型都会保留历史截图,帮助生成下一步的动作。

  Claude Computer Use采用了一种推理-行动范式,通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的GUI环境中生成更可靠的动作。

  Claude Computer Use提供了三种工具:计算机工具、文本编辑器工具和Bash工具,它们可以帮助模型与计算机进行交互,执行各种任务。

  GUI动作空间内置了所有原始的鼠标和键盘动作,如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图9)

  为了更加广泛地测试Claude Computer Use和GUI框架联合后的性能效果,团队还设计了详尽的测试实验,包括

  1.数据收集:实验设计包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务覆盖了广泛的应用领域,包括网页搜索、工作流程、办公生产力软件和视频游戏等。

  2.样本选择:选择了20个任务,涵盖12个软件或网站,分为以下三个领域:网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表:

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图10)

  3.参数配置:系统分辦率设置为Windows的(1366,768)和macOS的(1344,756)。过程中还加入了人类评审和评估用于监控和审查过程,确保任务的顺利完成。

  虽然Claude Computer Use在之前的例子中表现都非常厉害,但当网页或软件的页面过于复杂时,模型也出现了一些失败案例:

  1.精细网页操作失败:在Fox Sports订阅任务中失败,错误原因主要在于模型没有正确导航到”Account”选项卡。

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图11)

  2.办公软件失败:在Word中更新简历模板、和在PPT中插入编号符号两个任务中失败,错误原因在于模型未能准确选择和定位文本字段。

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图12)

Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控(图13)

  不过整体来说,Claude Computer Use已经很棒了,而且这功能也刚刚发布没多久,未来可期!Claude自动玩崩铁清日常NUS新论文完整测评AI电脑操控

Copyright © 2012-2024 华体会hth(中国)官方网站
电 话:023-62457490 手 机:18584563942 传 真:023-62457490 邮箱:admin@youweb.com
地 址:重庆市南岸区南坪正街16号7层
粤ICP备5332117792号

扫一扫关注微信公众帐号

免费咨询 投诉建议