这几个LLM常识你懂几个?
记得Andrej Kapathy
在微软2023Build大会大会上分享过
State of GPT
于是翻出来看了下
发现很多意外的惊喜
图1:Prompt是什么?
Prompt弥补了人类大脑和LLM大脑两种认知架构的差异
人类要用自然语言进行编程
也需要深入理解模型的行为和反应
图2:描述了人类的思考逻辑
o1的出现恰恰是模仿了人类这个思维链
图3、图4:为何CoT(思维链)有效?
因为Transformer架构对每个Token块分配相同的短时间
所以复杂任务你必须要让他思考更长时间
即用更多Token块来让模型有时间思考
图5:为何大模型不会调用工具?
因为大模型不知道他不知道的
之前的语料里就没有何时应该用工具
如何用工具的内容
所以它不知道
太有意思了!