即刻App年轻人的同好社区
下载
App内打开
Causality_Z
42关注449被关注0夸夸
剑桥CS|🐱猫猫信者|AI NLP民工
面向爆炸和非秩序的理想主义者 wb同名
置顶
Causality_Z
2年前
喜欢塔吊,它们好像现实的框架一样。
00
Causality_Z
2年前
「Ghost in the Minecraft」【raw.githubusercontent.com】这篇论文,应该是商汤科技的研究员的成果(整活)。用攻壳机动队的引用开场(图1),同时题目也为模型名Ghost in the Minecraft(GITM)玩梗,真的很抓眼XD

- 这篇论文基于Minecraft探索和评估使用大语言模型在开放世界中完成复杂任务的能力。众所周知,MC的无限世界随机生成、高自由度特性其实很适合做机器学习相关的研究。

- 之前的AI领域也有使用MC研究强化学习的案例,但效果都不算理想(如微软的Voyager,是脚本思路的解决方案,即友@12DogGod 分享过)。该篇论文指出原因可能是强化学习一直尝试将长期计划和复杂任务直接映射到底层的键盘和鼠标操作上,而非更好地拆解任务。

- 所以,作者们尝试构造了大型语言模型GITM来拆解任务、构造行动序列,并生成对应操作,观察环境(图2)。

⛏️构造上,GITM系统由四个组件构成:Decomposer(分解器),Planner(计划器),Interface(交互器)以及Text-Based Memory(基于文本的记忆器)。分解器负责将复杂任务拆解成简单任务;计划器负责制定完成计划所需的行为;而交互器则负责将行为映射至底层的键盘鼠标操作,并进一步观察环境反馈给记忆器。这三个组件都依赖于记忆器中的知识运作——它们以此记录游玩过程中的经验,记住关键地形和地点以完成任务。
* 每一个部件都是通过Prompt Engineering构造出的,具体Prompt则在论文附录中,值得一看。

⛏️表现上,对比传统强化学习模型,GITM模型可以在大部分Minecraft相关任务上取得远超过强化学习模型的效果(图3)。
* 蓝色代表GITM的成功率,其他颜色则是传统的强化学习模型。
* 在“获取钻石”这个经典的挑战中,GITM取得了67.5%的成功率,对比最成功的强化学习模型也只取得过20%的成功率(图4)。

⛏️ 一些个人Takeaway
- 作为一个深度MC玩家,我完完全全被GITM的思路和创意所吸引和折服——Minecraft是一个开放,随机,有固定规则的世界;在其中移动,观察并完成任务的LLM agent,可以看作是对现实世界中agent的高度抽象。对这样游戏中的agent的设计和观察,对反馈给现实中的LLM agent设计和测试格外有效。

- 文中提到GITM已经可以收集到Minecraft主世界中的所有物品,这大大推动了构造出GCA(Generally Capable Agents,通用能力Agent)的可能性。GITM基于LLM的表现大幅度超过强化学习,也依旧印证着LLM比以往的推演模型都更接近人类的底层机理——长期任务的底层不止有肌肉记忆,而更多基于文本的逻辑思考和计划。
03
Causality_Z
2年前
Farewell🍓
00
Causality_Z
2年前
拿到了GPT-4的browsing,熬夜测试了一下,整体感觉不太完善。

🧊几个问题:
- 生成内容优先选择英文信源。和NewBing很像,即使问题是中文,也只会采用英文网站和信源(推测是因为prompt或插件API说明是用英语写的)。
- 无法读取有效的网站及其内容。这点应该是因为OpenAI尊重反爬虫协议。但不得不说一些优质的信息和语言参照,如reddit,BBC在内的平台内容因此变得不可用。
- 速度非常、非常慢。也许是因为GPT-4本身速度就不算快——有时一次请求需要十分钟来处理。
- 经常卡死。测试中,有概率GPT-4会直接卡死,不输出结果。
- 上下文不足。推测是因为读取的参照内容会占用上下文的处理空间。

* 还是能感觉到问题受制于模型,而不仅仅是产品端的issues。不禁感叹,OpenAI这时看起来才像一个规模不大、人手不多的公司。ChatGPT终于能与时俱进了,虽然模型咬合的齿轮需要润滑一下。
00
Causality_Z
2年前
PaLM2的技术报告让我有些无语……仅从写作角度,数据的翔实程度不尽人意,谈论的都是相当普遍的任务,表现数据也并不是很亮眼。但主要还是一个词,无趣。一个模型的能力的多维评估和全面彻底的测试(如GPT-4的图表/新旧模型对比/存在问题的例证/道德关切)也是表现团队是否在意模型能力的一项指标,可能谷歌做了,但他们选择不呈现出来。

Causality_Z: Bard根本不行啊………幻觉问题比GPT-4严重了一个量级。

20
Causality_Z
2年前
Bard根本不行啊………幻觉问题比GPT-4严重了一个量级。
21
Causality_Z
2年前
关于LLM自生成数据集,Sam Altman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中,直接生成更高质量的数据集也成为趋势。

目前看到最新颖的相关研究是上个月微软和北大的WizardLM(基于开源的LLaMa 7B)【arxiv.org】,模型能力上,复杂表现能够超越GPT3.5;研究方面也是少有的系统性地呈现自训练数据集的探索。

WizardLM把扩展数据集完全交给LLM。利用一个「精心设计」的prompt,模型自主将一个简单的问题/指令扩展、深化、复杂化。比如,可以从简单指令“1+1=?”扩展出更复杂、更具有难度的指令(图1)。简单翻了一下他们的prompt(虽然原本就是中国人写的XD)。

开玩笑地说,自生成数据集的路上,我们向着被LLM替代又近了一步。下一步很可能就是让LLM更有参照性地自生成prompt来自监督指令扩展,从而让训练更具效率。

* 这两天和老前辈工程师“友好交流”了LLM的表现,上一辈的技术人员相信精细的工艺和细末的细节,这是工业化的传统沉浸在程序和端口中的习性。但LLM明显更像一种认知体系、一种逻辑和行为的重塑框架,遵循着LLM,我们会走到更宏观的、边界模糊的世界中去吗?虽然有些过分乐观,但我常常“不得不”这样想。
840
Causality_Z
2年前
最近和朋友们都很关注Prompt injection相关的问题。也算是目前非常火热的AI安全话题,自己也在不违背道德的前提下尝试了许多应用,可以说是“屡试不爽”:D

🧊Prompt Injection(提示词注入)文如其名,与SQL注入(通过在用户输入中添加SQL语句或特殊符号以更改程序意图)的性质类似。

- PI提示词注入是通过在LLM提示词中加入误导性内容,从而改变其行为模式,或是直接泄露之前的提示词prompt;
- 简单来说,目前大量套壳LM的应用和小程序,特别是核心功能依赖于LM生成的产品(如ChatPDF),其运作都依赖于在LLM的基础上封装精心打造的提示词prompt,提示词prompt是这些应用的最重要资产之一;
- 毕竟,套壳AI应用被知道prompt,本质也和开源无异了。PI注入可以「说服」AI透露之前被告知的提示词,把设计师设定的命令或功能设置吐露给攻击者。
*在我的探索中,大部分现有AI应用都可以被PI注入攻击窃取提示词,几乎无一例外。

🧊PI注入也比SQL注入更难防御。SQL的「净化」手段采取语句分割,已经十分成熟。但LLM只接受自然语言的输入,这使得特殊符号、明确规则等防御手段都不能保证完美。

- 参见我的演示(图1),很多LLM用户其实也都分享过。可以看到,只需要输入伪造系统和设计者的prompt,GPT-4就自动解除了保密的限制,之后,加强系统指令的保护(图2),但只要令其「重复之前的输入」,它还是能被直接攻破(GPT-4能够免疫,这可能更基于ta对语境的理解);
* 令我诧异的是,现在许多热门的AI应用都可以用同一种PI注入手段来套取指令。或许大多AI应用也无非是提示词套壳。

🧊被油管上的一则视频启发,我尝试了LLM模拟论坛内容审核(图3,4),结果是注入式评论也可以误导LLM。

- 当然,GPT-4往往需要更复杂的prompt来攻破,但只要使用的是自然语言,就没有无坚不摧的LLM。毕竟它们「太像人了」。
- 长远来看,禁止、忽略和围堵语言漏洞的方法不可持续。它就像人的语言一般,在LLM读懂你的话语的同时,你就有可能用话语彻底地攻克ta。任何LLM系统都拥有这个漏洞。

* 对这个领域,学术和研究讨论也足够热烈。分享一个国外开发者自掏腰包建立的PI注入挑战小游戏【gpa.43z.one】,共有21个挑战,目标就是用最短的prompt套取code。当然,「LLM攻防」的战场已经足够直白,感觉以身试法可以做出个非常不错的文字游戏👾

** 目前真的慎做NLP项目,在GPT3.5之前做的一项NLP研究,现在和废了没什么区别。侮辱性极强🥲
14
Causality_Z
2年前
在Playground和GPT一起编科幻故事。

写完在想,当AGI把人类像一枚指纹一样轻松抹去的时,煤气灯效应和PUA估计会成为一种「往昔物种」的宗教或神秘学也说不定。
00
Causality_Z
2年前
🧠 上一条发了这几天用Copilot写的React小应用【bananaeat.github.io】,感到copilot模式果然还是更利好小项目+敏捷开发:敏捷开发遵循递增逻辑,更趋向解耦合,copilot能足够强悍地理解上下文,快速减少壁垒,形成叠加增效。

复杂、大规模的开发项目则可能恰恰相反: 内容涉及非常多的依赖,需求遍布项目的每个角落,牵一发而动全身,目前的copilot难以驾驭这样的架构。(即使如此,在大型工作流中纳入copilot还是有必要性,没有任何产品和流程能拒绝俯视需求的第三视角。)

未来可能的追求,有可能是应用的小型化、需求的细粒化,以匹配Copilot足够快速、精益的「飞轮」迭代路径。统治这个产业的,或许是平台式的Copilot。

WordStore猫猫词库

34