🧠最近看的超好玩的一篇文章,Claude 在讲模型如何思考的探索。
感觉人类如果能加逐步深对模型的理解,终于有机会,缓慢的开始认知人的大脑到底是如何运行的。
讲了几个好玩的发现,首先是模型如何识别语言,跨语种交流。对于模型来说,确实存在一个和语言无关的思考层,思考成处理完后,会和语言层进行组合,输出成对应语言。
我感觉这很有意思,模型并不是在用某一种特定语言思考,而是在用脱离语言的另一种方式思考,而后翻译到人类熟悉的语言。
无论是否是推理模型,模型都会进行前置思考规划和思考。在开始之前就会进行规划,并非传统意义人类认为的大模型只是词预测。模型在训练过程中诞生了想办法让自己思考的链路。
数学上的发现更是有意思。人文模型 36 + 59 是多少,模型会说 95。你问它是如何思考的,它会告诉你符合人类数学的思考方法!然而实际上它完全不是这样思考的。它先做了一个估算,再用另一个计算确定运算结尾,将二者结合得出结论。
所谓的「思考过程」只是它输出给人熟悉的方式看的。
末尾的部分在讲模型幻觉。模型为什么在假装回答它不知道的内容,没想到居然和咱们小时候强迫自己给卷子,会或者不会问题的答案都要填满类似,别空着。
大模型在信息不充分无解的情况下,会努力想一个最可能的答案。先把答案蒙出来,再给自己倒推一个思考过程。
哈!
这句话太有意思。模型的训练过程中,它自己学习找到了解决问题的策略。During that training process, they learn their own strategies to solve problems.
www.anthropic.com