AI玩《超级马力欧兄弟》:Claude模型真是天赋异禀,推理模型简直如同菜鸟_体育直播

来源:直播吧

加利福尼亚大学圣地亚哥分校的Hao人工智能实验室上周五进行了一项新奇的尝试,竟然将人工智能推上了《超级马力欧兄弟》的舞台,仿佛这款经典游戏不仅仅是懒人消遣的工具,更是AI实力的试金石。经过一番“激烈比赛”,Anthropic的Claude 3.7表现得就像超级马里奥的化身,勇夺冠军,而Claude 3.5则紧随其后。相较之下,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o简直就是出局的悲惨角色,如何打得如此令人失望,真令人好奇是不是它们偷偷退出了这个游戏。

需要特别说明的是,实验使用的并非1985年的原版《超级马力欧兄弟》,而是运行在模拟器上的版本,借助一个名为GamingAgent的框架将人工智能与游戏紧密连接,让AI能够在虚拟世界中操控马力欧。这个GamingAgent由Hao实验室自主研发,提供了基本操作指令,比如“遇到障碍物就左转或跳”,简直是为AI的“冒险之旅”打下了基础。

而研究过程中还发现,像OpenAI的推理模型o1这类AI在游戏中表现得真是像绝望的鸟儿,它们在解决问题时需要一段时间的思考,然而在这款游戏中,时间可不是随便拿来浪费的!马里奥的每一个跳跃都可能成为生与死的抉择,真可谓是“错过一秒,万劫不复”。

多年来,游戏一直是衡量AI性能的金标准,但一些专家却对这种直接,用游戏表现来衡量技术进步的方式表示疑虑,他们不禁发问,这些虚拟场景真能代表现实世界吗?在游戏中,AI面临的数据几乎是无穷无尽的,试问这又如何能和现实生活的复杂性相提并论呢?

在这种情况下,OpenAI的研究科学家安德烈·卡帕西甚至提出了“评估危机”,称他深感迷茫——若连AI的评价标准都无法清晰,未来的AI发展路径就更加扑朔迷离。这波操作简直像是在跟我们说:“你们看,AI的未来,我们也不知道。”实在有趣,却又透着一丝无奈。

电竞免费观看_电竞高清在线

更新時間: