📌 人人都能用好 AI:如何用 AI 帮助学习长文材料
——— 以后期修图的视角作为切入点
——— 不把第一次获得的 JPG 作为知识增量
——— Claude 可以是文科阅读中的 PS
🤔 压缩是为了什么?
喜欢摄影吗?单反相机拍摄的源文件多半设置为 Raw 格式。由于文件太大,所以需要的加载时间较长。还有一种拍摄模式是同时生成 Raw 和一个 JPG 格式的图片。虽然 JPG 失去的信息较多,但「压缩」(类比)可以让我们快速浏览文件的「失真(缩略)」版本。
失真版本(这里指 JPG 格式)在图像上看,大致有七八成大差不差,每个人都能看到一样的光景。但是,这种 JPG 格式在后期修图软件里无法大幅度拉动调色的滑块。(包括曝光、高光、阴影、饱和度等参数)
反之,Raw 其实是一种文件格式,可以大幅度拉动各个参数的滑块而不会破坏图像。不同的人会有不同的修图方式,所以你会看到每个人修出不同的结果。无论如何,不会基于一个 JPG 来多次修图。
场景不同,需求和目的自然不同。对于发动态来说,观众不需要通过“失真”(修过的)图片逆向出原图,我们就是要看修过之后的成品图。
但是如果你类比到「金句」就完全不一样了,读者试图通过金句逆向作者的思考和理解,这太难了。没有背景的情况下,全靠脑补。
例如乔布斯为什么自信?有人写到:因为他是 V 字型扫视。这就是一个比较失败且奇葩的逆向过程……
然而,破解这个难题恰恰就是 AI 的用武之地。我们可以把对于一篇较长文章的第一次摘要看作是多个金句。
——————————————————
📰 用 AI 看新闻
回到 AI 的使用这个主题上来讲,最常用的功能之一是「智能摘要」。但为什么要进行摘要?理由之一可能是为了更好地获取知识。
所以我们需要分清楚使用场景,分类讨论。
1⃣️ 情况一:看新闻,新闻也可以继续向下分出很多类别,这里以公众号自媒体为例,哪怕是最简单的 Prompt —— 请总结全文,也已经足够用了。
不过,现阶段由于 gpt-3.5-turbo 的上下文窗口长度为 4096 tokens,太长的文章需要分段总结,然后再对分段摘要再次进行摘要(摘要之摘要)。
类比我们提到的摄影,假如原文是 Raw 格式,那么第一次压缩就得到了 JPG,第二次则是基于 JPG 再次修图得到另一个 JPG。
我们刚刚提到,JPG 的修图空间很小,假如再次基于 JPG 进行修图,那原图丢失和篡改的信息就更多了。
所以对于摄影师而言,看到 JPG 不满意,其实是回到 Raw 文件重新修,而不是基于 JPG 修。以此来保证摄影作品的质量。
好在新闻的篇幅不算太长,也并非属于严肃学习的场景,失真容错率相对较高。用摘要快速确定是否感兴趣 & 大致内容读个压缩版是很有用的。
——————————————————
📌 用 AI 学习长文章 / 长视频 / 长播客(转文字脚本)
在这种场景下,摘要失真的容错率会低很多(尤其是严肃科普阅读)。但阅读的方法论不同,我们可以一在定程度上克服这种失真。模仿修图师的思维,就是一个答案。
有人说:假如文本长度为 75000 个单词,一般人用时大约 5 个小时读完等量内容后,还得用更多的时间去消化、记忆、分析。而对于 Claude, 大约不到 1 分钟就搞定。
📝 备注:Claude 的 API 目前能记住 100k tokens 的长度,而同时的 gpt-3.5 能记住大约 4k tokens;而目前 slack 里的 Claude 机器人大概是 9k tokens
🤔 那是不是说人类就不需要学习了?当然不是,至少 AI 目前为止的定位和程度还是工具,而不是独立的生命。回看 AlphaGo,给人类棋手的学习带来了崭新的启发,其实是加速学习和带来崭新的启发。
回到用 AI 阅读学习材料这件事情上来,如果你用过 Chatpdf 类似的产品,你就会发现当 AI 帮你把 pdf “读”完之后,它会提出大概 3 个可能值得提出的问题,从而引导你提问和获得启发。(Chatpdf 不是真的帮你消化了完整的内容,下面 👇 我会解释)
刚刚我们从摄影聊到了金句的逆向,我特别提到一句话是:「没有背景的情况下,全靠脑补特别难」。
换句话说,假如有背景,那金句和摘要带来的可能性就发挥了更大的价值。
就好像修图师找得到某个 JPG 的 Raw 原文件,找不到的话,客户不满意就没法重新修图了。
对于 AI 而言:
👉 预训练已经“提前帮你看过了很多内容”,这是第一部分;
👉 而我们的上下文聊天发送的内容,是看过的第二部分内容,两部分合力发挥作用。
📝 总结一下:
👉 AI 工具之于短平快的新闻的价值在于摘要本身,主打的就是一个快速获得资讯。
👉 AI 工具之于严肃学习的价值不是摘要,此时的摘要类似于金句,价值在于「逆向思考的过程并获得启发」,单纯接收 AI 的摘要不足以构建知识。因为逆向思考需要一定的背景,否则很难推导和获得知识。然而 AI 的长处就是给你提供用于逆向思考所可能的背景知识,类似于一个可能存在的 Raw 文件),它由预训练的部分(非 prompt) + 你提供的上下文组成。
OK,区分开两个大致的场景和方向,AI 的「真实效益」便可以最大化。混淆了读新闻和读长文这两个场景就很难用好 AI,自然会把 AI 当成一个车轱辘话生成器。
💭 至此,如果你延伸思考,你就会知道 Prompt 的重要性来源于哪里 —— 即通过 Prompt “唤醒”预训练中的知识作为金句 / 摘要背后可能的背景铺垫(Prompt 本身也是),然后进行更好的推理来输出答案。
在过去几个月里,最常见的 Prompt 句式:「你是一个 xxx」,就是如此。然而,正如我刚刚提到的,别忘了这种模版只不过是 Prompt 中的一部分,另一部分是知识。知识,也是一种 Prompt(字符串)。
例如,假如你关心「营销」,你可以在 Prompt 里插入一段和营销有关的书籍原文,再在后面提一些问题。如果你用 Claude-100k,甚至可以在聊天开始的时候直接给他一整本书获得摘要。(效果如何,我还需要继续测试和观察,以后再给大家写测评)
紧接着,以摘要为线索,通过聊天获得新的思考和观点,和 AI 相互启发,才能有所收获。
换句话说,在严肃学习这个场景下,思考的过程才有价值。但奈何我理解原材料(Raw)的能力可能不够强,所以我让 AI 先生成一个摘要(JPG 1),但是我们不把 JPG 1 直接作为新知识,而是通过 JPG 去指引我们找到 Raw 文件,一边自行思考一边问 AI 是如何加工这个 Raw 文件的,从而来和自己的思考过程形成对照。自然能找到自己思考卡壳的地方等等。
在这个前提之下,我们再在聊天告一段落的时候,基于我们的思考进行摘要就好太多了(获得了你自己的修图版本 JPG 2)。即便 AI 可能有所遗漏,我们也会有所觉察并进行补充(毕竟你认真思考过了)。
另外,尝试进行公开写作,其实是一个运用费曼学习的过程。更多的思考,见 👉
@Szhans m.okjike.com🙌 让我们一起回忆一下,阅读长文的流程可以是:
1⃣️ 第一步:先摘要 —— 借助 AI 的强大力量判断感不感兴趣,以及文章大致的重点清单。然后甚至可以一开始就问 AI:「请围绕这篇文章的核心观点提出最值得思考的 5 个问题」。然后看看有没有感兴趣的,以此来激发自己的好奇心和求知欲。
2⃣️ 第二步:基于摘要中最感兴趣的观点进行逆向思考 —— 例如,你提到的「xxx」这个观点特别有意思,能不能说说原文中提到的原话是什么,作者提到了一个怎样的场景、故事或者实验案例?
3⃣️ 第三步:基于逆向思考和聊天进行摘要、整理和校对。
可见,再学习的场景下,凡第二步我们才进入了「修图模式」,而不是直接进行智能摘要,并把这个摘要作为自己所得的新知识。
⚠️ 请注意,上面只是一个参考而不是标准答案。也有时候我会读完了文章再拿去让 Claude 也读一读再和我聊。
AI 在这个过程中大致做了两件事情。首先,是基于一个 JPG 指引我们回到 Raw 文件;其次,是全程可以辅助我们加工 Raw 文件。
今天,我们在自学方面终于也拥有了摄影意义上的 PS 了。
——————————————————
🌟 细节:在第二步中,有时候还是不太好理解消化,你可以继续追问:
1⃣️ 你刚刚提到的「xxx」这段话很难理解,你能不能用给中学生讲解的口吻通俗易懂地向我再解释一下呢?
2⃣️ 请你善用比喻、类比、拟人的修辞手法。
3⃣️ 能不能请你举一反三,告诉我这个观点如何应用于我们的生活,可以给我们带来怎样的指导?
上面是我常用的提问法,三个可以一起用。但是,特别注意,根据我的经验:
1⃣️ 一次最好只针对摘要中的一个论点进行分析,这样的话整个回复的篇幅都会集中于此。
2⃣️ 反之,如果你一次就让他分析三个观点,那么每一个观点也只是简单谈谈而已,不如逐个击破。
3⃣️ 耐心地复制原文。大家在微信怎么回复消息的,是不是长按某一条消息引用来回复?又或者在飞书和 slack 里创建话题 / 消息列来进行收束?同理,当我们聊天已经进行了一段时间后,最好复制特定内容后再向 AI 提问,这样别人才知道重点嘛~(也是在帮助对方回忆内容)
至此,你应该知道为什么上下文长度如此重要了,Claude 也许目前编码能力和翻译能力不如 ChatGPT,但是其文科理解能力特别强。他是你学习文科类内容的「靠谱同学」。在长度拓展到 100k tokens 之后,你可以想象其逆向能力的强大。(理论上)
——————————————————
🤔 其他问题:Chatpdf 不是也能读长文吗?和 Claude-100k 区别在哪里呢?
注意,这个和 Chatpdf 不同,由于 gpt-3.5 只有 4k 上下文(相比之下),所以 Chatpdf 实际上是把 pdf 原文切分为了很多小块。通俗地说就是:
当你提问的时候,程序先搜索我们的问题从语义上看最相关的一个或多个 pdf 片段,然后把这部分内容作为 prompt 的一部分,合并你提问输入的 prompt,以及程序内部预设的一些 prompt 模版,共同传给了
大模型,然后我们才得到了最终回答。如果每次都把 pdf 原文发过去,就超出长度限制报错了。
在这个过程中,pdf 会被怎样切分呢?例如,每隔 1000 就切分为一个小片段。
你也许已经想到了:假如刚好有些重点被切开了,岂不是影响了 AI 的理解?这个方法确实是。但是也有一些技术方案尽可能缩减这种偏差。
而最新的 Claude API,看官方文档说的是「上下文长度」就能记忆 100k tokens,这就和切分 pdf 的方法划出了界限。