chatbot没有跳出循环的逻辑,所以答案极度收敛,直到eos的概率穷尽。react有API架构设定的跳出循环的逻辑,所以会选择在while里跳出找到tool schema后再继续直到eos。
react中reason在时间维度上的展开就是plan,即便这只是单个动作的定时任务,replan是plan的基于时间维度的展开。reflection是基于奖励函数的对齐,而不单是plan单次任务是否完成。
chatbot、react、plan,这三个真是在每个场景下都踩了坑,就好像原本是打算盖一个草屋,后来发现下雨所以改成了楼房,然后人越来越多了只能盖好几层了。虽然在某些场景下已经初步具备了agent hierarchy,但也更期待更复杂的统筹