AI 新知:当GPT-4 遇上开放世界游戏, 智能代理到底有多强?
尽管AI 智能代理在一个开放世界的成为超级玩家的内容不再是新闻了,然而在上周英伟达发布一系列重磅发布中, 这个被称为 Voyager 游戏智能代理,还是表现出非常令人惊叹的自主探索和学习能力。 这种智能代理是如何通过 GPT-4 一步步是实现的?
为了让更多非专业人士,从原理层面感知这类技术(类似 AutoGPT)原理、应用层的可能,我和 Claude 100k 一起为大家尽可能深入浅出的进行解释和案例分析。 ( 对话全部内容,
poe.com)
🧬 核心问题只有一个,自主学习、编码、技能树的游戏 AI 是如何工作。
(如果你不熟悉《我的世界》这款游戏的玩家视角,我建议你先在官方网址 ,简单看一下多个GIF 级别的小视频, 有个感性认知。图 1,也可以直接移步官方网址
voyager.minedojo.org)
🕹️ Voyager 是什么?
- 它是第一个玩Minecraft的终身学习的智能代理。Voyager 可以自己写代码、自我迭代、不断完善技能库中,实现可以终身学习的游戏探索过程(见图 2 )
- 它建立在GPT-4之上,并解锁了一个新的范式:「训练」在这个语境下是执行代码;「训练模型」是Voyager迭代组成的技能代码库,而不是浮点矩阵。
- Voyager 正在成为一个经验丰富的探索者,一个超级玩家。在《我的世界》中,它获得了3.3倍的独特物品,旅行了2.3倍的距离,解锁关键技术树里程碑的速度比之前的方法快15.3倍。
- 它是开源的。
🤖 Voyager 有 3 个关键组件:(见图3)
1. 结合游戏反馈、执行错误、验证来完善程序的迭代提示机制;(让 GPT-4 写代码 )
2. 用于存储和检索复杂行为的技能代码库;(任务的自主完善和迭代)
3. 最大化探索的自动课程。 (开放的任务指导体系)
以下是我和Claude 100k的全文提问内容, 你可以作为「深度对话」和 GPT 们交流。
(如果你不是 Poe 的付费用户,也可以用 ChatPDF 之类的代替)
Q1:我们讨论一篇重要的AI行业论文,我把正文输入给你, 当你阅读理解完成后, 请回复 OK。(请注意,复制全文有关对话记录省略了 )
Q2:请总结这篇论文的核心要点, 尽量以中学生能读懂的非技术语言和风格。我们一条条慢慢展开,尽量站在科普和面向非专业人士的立场。首先,请你站在非游戏玩家立场上, 简单介绍下Minecraft 这个沙盒游戏?为Voyager这样的自组织学习的智能代理有什么独特的环境属性?
Q3:我的理解是,「迭代提示机制」作为第一个核心要素, 是Voyager 自组织探索的关键。 当VOYAGER 需要完成一个任务时,它会先通过大语言模型生成一段代码;然后根据执行这段代码产生的环境反馈、执行错误和自我验证;不断改进这段代码,直到完成任务要求;得到成功的代码就会加入技能库。
能否针对《我的世界》这款游戏玩家的视角, 给出一些具体的任务和例子, Voyager是如何执行这条机制和系统的呢? 例子不要3个,可以从简单到复杂, 尽量包含与环境的互动和反馈等关键描述。 注意保持非技术人士的视角。(见图4)
Q4:很有趣,以中等难度的「制作铁制工具」任务为例, VOYAGER会如何自组织设计prompts来实现 GPT-4的编码呢? 具体有哪些环境属性的信息,让 AI 模型能够「看见」和得到反馈信息?(图 5)
Q5:看起来这些 prompts 的方式相当开发者级别呢? 不仅包含了包含环境和实体的属性信息,还让游戏的 API 模拟了游戏操作🎮。 那么,如何解决GPT-4 编写代码出现 bug,病自动修复的问题呢?(图 6)
Q6:除了自我修复 bug,还有「自动课程」机制会触发, 提供另外一些新的任务目标。
那么, 请用最朴实、简明的语言,介绍一下「自动课程」的基本原理,并介绍 3 个场景案例,来探讨它是如何给 AI 智能代理提供新任务的流程?( 图 7)
Q7:我举一个更具体玩游戏场景的例子:例如 AI 智能代理,发现自己在沙漠而不是森林中,它会如何调整它当前的任务(制作铁锹的材料在当前环境缺失)?
Q8:Voyager通过将成功的程序存储在一个矢量数据库中,逐步建立起一个技能库。每个程序都可以通过其文件串的嵌入来检索。复杂的技能是由较简单的技能合成的,这使Voyager的能力随着时间的推移而不断增强。
Q9:论文中提到,顶部:添加新技能。每个技能都通过嵌入其描述来索引,可以在将来的类似情况下检索。
底部:技能检索。当面对新的自动课程提出的任务,Voyager 会执行查询以确定前5 名相关技能。复杂的技能可以通过编写更简单的程序来合成,这加速了迭代。
请从继续描述一个「构建房屋」例子,来说明这个技能库完善的过程吧。
Q10:解释的很好, 自动课程会根据VOYAGER当前的状态和位置,借助 GPT-4 不断适应环境。 这「看上去」确实有一些生物意义的智能在里面了呢。
那么,我们再来讨论第三个重要的组件:构建技能库。请介绍下Voyager 通过将成功的程序存储在向量 DB 中来逐步构建技能库?比实现由简单技能构建复杂的技能的累进过程?( 图 8)
Q11:论文中提到, 顶部:添加新技能。每个技能都通过嵌入其描述来索引,可以在将来的类似情况下检索。底部:技能检索。当面对新的自动课程提出的任务,Voyager 会执行查询以确定前 5 名相关技能。复杂的技能可以通过编写更简单的程序来合成,这加速了迭代。
请从继续描述一个「构建房屋」例子,来说明这个技能库完善的过程吧。
Q12: 这里有一个小问题, GPT-4 目前没有提供「视觉」能力, 那么, 构建房屋这种复杂的技能和任务, 是如何被代码实现的呢?
Q13:那么,请总结以上我们讨论,如何理解Voyaer 这种终身学习 AI 代理的主要能力;并尝试用一段话来描述这种技术的开创性价值和潜在应用场景吧。 谢谢你的 Copliot~
以上全部对话内容一次放出, 可在 Poe 网址上观赏 。Enjoy~
poe.com