关于 token 定价,一个重要的约束条件是:智能水平的迷雾。
实际上,几乎没有什么角色清楚地知道不同模型在不同场景下的智能水平对比。
人的体感和心智都过于感性和容易被经验及观念传播误导。
一个的真实例子:四岁的小朋友左膝盖晒在阳光下,右膝盖在阴凉处。一段时间后,他发现左膝盖比右膝盖热,然后摸了一下,发现真的是这样。
这个描述的背后,有三种方式来确认两个膝盖的温差:
一是大脑神经直接连接两个膝盖,形成对比;
二是两只手分别摸到两个膝盖,然后对两只手的末梢神经信号进行对比;
三是用一只手分别摸两个膝盖,然后进行对比。
这三种模式移植到模型应用场景的智能水平对比时,都有显著的局限性:
模式一的问题是,并不存在一个中央模型能评价各个不同模型厂商;
模式二的问题是,「两只手」的尺度不一定统一,实际上真实操作是靠测试集,测试集本身存在显著的局限性;
模式三的问题是,对同一个任务采用不同模型进行多次测试度量,很难构成精确的 A/B 测试。
也许我们在度量模型的智能水平和对应的商业价值时,不得不放弃一劳永逸的诉求,去寻求有误差但可行的场景化度量和分层对比机制。