Andrej Kapathy真的是能把技术概念讲得无比简洁的牛人

这几个LLM常识你懂几个？

记得Andrej Kapathy
在微软2023Build大会大会上分享过
State of GPT

于是翻出来看了下
发现很多意外的惊喜

图1：Prompt是什么？
Prompt弥补了人类大脑和LLM大脑两种认知架构的差异

人类要用自然语言进行编程
也需要深入理解模型的行为和反应

图2：描述了人类的思考逻辑
o1的出现恰恰是模仿了人类这个思维链

图3、图4：为何CoT（思维链）有效？
因为Transformer架构对每个Token块分配相同的短时间
所以复杂任务你必须要让他思考更长时间
即用更多Token块来让模型有时间思考

图5：为何大模型不会调用工具？
因为大模型不知道他不知道的
之前的语料里就没有何时应该用工具
如何用工具的内容
所以它不知道

太有意思了！

来自圈子

AI探索站