chatbot没有跳出循环的逻辑，所以答案极度收敛，直到eos的概率穷尽。react有API架构设定的跳出循环的逻辑，所以会选择在while里跳出找到tool schema后再继续直到eos。

react中reason在时间维度上的展开就是plan，即便这只是单个动作的定时任务，replan是plan的基于时间维度的展开。reflection是基于奖励函数的对齐，而不单是plan单次任务是否完成。

chatbot、react、plan，这三个真是在每个场景下都踩了坑，就好像原本是打算盖一个草屋，后来发现下雨所以改成了楼房，然后人越来越多了只能盖好几层了。虽然在某些场景下已经初步具备了agent hierarchy，但也更期待更复杂的统筹

大家都好优秀喔，欢迎约Coffee，Base 上海

来自圈子

JitHub程序员