做带有ai的功能,起手式里必须有测评先行。
所谓测评,就是在定义ai的能力边界,包括定义数据集,定义预期效果,以及定义每次迭代的效果衡量方式。
1)能力边界
其实就是定义擅长解决哪类问题,不擅长解决哪类问题,对于不擅长的,应该如何给用户反馈。
最典型的,就是智能客服系统里,超出知识库范围的就转人工。
2)数据集
上一代ai功能,还需要定义训练集、测试集、验证集,但现在做大模型套壳之后,保留最核心的测试集其实就好了。
但测试集的构建本身也是有说法的,理想的是要和真实业务的数据分布一致,并且要随着业务发展不断调整。不然很可能在自己的测试集上效果很好,但用户一上手感觉就很拉胯。
3)预期效果
一类是技术指标,比如准确率,召回率等等,这是最基础的,用于模型本身测评,任何算法工程师都有这意识。
另一类是反映业务的指标,用于实际效果监控。
对智能客服而言,就是转人工率,转人工意味着系统没有处理好用户疑问,理想情况是越低越好。
对一些识别类任务,就是用户的重试率,重试意味着识别得不好,有问题,也是越低越好。
上面这些东西,如果和算法研发没对齐,大家就是兴冲冲地开发了一堆功能,最后大概率都没法上线,或者收到一堆差评。
ai功能,不是写个提示词,套个大模型就完事了。