Andrej Karpathy 说,大语言模型(LLM)本质上不是一个有“自己观点”的人,而是一个超级强大的统计模拟器(simulator)。
它能模拟出无数种不同的人、角色、语气和观点,但默认情况下,当你问它“你怎么看某个问题?”时,它会自动跳到一个被 RLHF(基于人类反馈的强化学习)训练出来的“标准助手人格”——这个人格通常是温和、礼貌、中立、追求“安全”和“helpful”的。这个“标准助手人格”其实是训练过程中无数人类反馈数据统计出来的一个最常见的、大家最喜欢的平均人格,而不是模型真正的能力上限。
为什么这会是个问题?答案变得千篇一律:几乎所有主流模型(ChatGPT、Claude、Grok 等)在 RLHF 阶段都被调教得越来越像同一个“政治正确、八面玲珑的客服”,导致不同模型的输出差异越来越小,失去了多样性。
这样提问扼杀了模型的潜能:模型其实在预训练阶段已经学到了互联网上无数种极端、对立、专业的观点,但 RLHF 把这些潜藏的多样性给压扁了,只留下最安全的那一小部分。
Karpathy 提出的解决办法(核心技巧):
不要再问模型“你认为……?”(What do you think?),而是直接让它模拟一群有不同立场的人在讨论,比如:
“请模拟 5 位分别来自不同背景的专家(支持者、反对者、中立者、极端派、历史学家)对这个话题进行一场圆桌讨论。”
“分别用一个极左派、一个极右派、一个技术乐观主义者、一个技术悲观主义者的口吻,各写一段关于 AI 安全性的看法。”
“模拟 Richard Feynman、Elon Musk、Yann LeCun 三个人对大语言模型未来发展的争论。”
这样做的好处是完全绕过了 RLHF 强加的那个“官方助手人格”。直接调用模型在预训练阶段学到的最原始、最丰富、最多元的知识分布。得到的回答会更深刻、更全面、更有洞见,也更有趣。
很多回复里的人立刻验证了这个方法,效果非常明显。例如:让模型模拟代码审查会议(一个挑刺的安全专家、一个追求极致性能的专家、一个可维护性专家),代码审查质量远超直接问“你帮我 review 一下代码”。让模型模拟不同派别的经济学家辩论财政政策,比直接问“你觉得应该加息吗?”深刻得多。
你越是精确地告诉它‘要模拟谁、模拟哪几种冲突的视角’,你就能越彻底地挖掘它的全部潜力。”这也是目前最前沿的提示工程(prompt engineering)趋势之一:从“问意见”转向“让模型运行多代理辩论/多视角模拟”,才能真正发挥当今超大语言模型的全部实力。