今天忽然意识到一个事:对 Agent 来说,读一份10k token 的 md. 和它读10份1k token 的md(内容完全一样,后者就是前者的简单拆分)相差很大。如果不采用额外的上下文管理手段,后者消耗的是不是前者加一点点overhead,而是前者的若干倍,因为每次读后面的文件的时候前面的都默认还在上下文里,最后消耗的数量级是55k(1+2+...+10)。 Context Caching 也不能完全解决这个问题(它只是一定程度上降低了费用,而且工程上很多时候 cache 对这种少量重复根本就懒得激活)。
我把上面这个问题同时和御三家讨论了一下,它们都说确实是这样(三家对具体的成本估算略有不同,但都同意上面的基本逻辑)。
但我还是觉得有点神奇:这岂不意味着仅仅把小文件合并到适合AI的篇幅就能带来巨大的效益?