一篇很有趣的论文,任务自动化(task automation)领域看多了position paper,终于逐渐有一些不是靠rule based定好洗脑规则的工作逐渐开始了~paper里报的问题的确是直接用gpt-4/3.5 进行api call常出现的硬伤。一点点小的吹毛求疵的话可能是这篇论文里的工作暂时只涉及单个api call,但是对于复杂任务是多个api call的组合,这方面论文还没有触碰到。
像之前预测的,next generation model的重点可能会是pre-trained action prediction model,这是一种在语言模型之上的对于planing+reasoning+language的综合建模,期待看到更多这方面的硬作😬
#今天也在肝论文