今日份学习:上下文缓存
之前没认真学这个缓存,仔细研究才发现真的能省钱。
1. 上下文缓存只跟输入有关,跟输出无关,输出永远都是原价,比如 在openrouter里,以gemini为例,命中缓存后,输入成本可以再降四分之三,即 0.25倍。不同厂商有不同的缓存售价。
2. 写缓存也是要收钱的。比如gemini 2.5 flash 写一次要$0.08。再就是有些思考模型会按阶梯定价。
3. 缓存时长通常有限,比如gemini 只允许缓存5分钟,要充分利用好这5分钟缓存,过期了就变回原价,写入缓存的费用也白瞎了。
4. openrouter中使用gemini,在一段消息中,openrouter只允许缓存一个消息(即要选出最大的做取舍)
5.为了让缓存持续生效,消息构造要非常小心,要把固定不变的提示词放在前段,后段放置有变化的提示词【重要】
总的来说,如果你的业务场景是判定性质的,即大部分输入固定且庞大,输出仅是yes/no的判断,利用好缓存,成本可以大幅降低