认真谈一谈「自动标注」的伪命题,以下发言只针对计算机视觉也就是图像领域内的「自动标注」和图像领域内的数据标注行业。
基于传统感知算法的「自动标注」指的是用算法对「待标注」的原始数据直接进行批量预处理或者在标注的同时,搭载在标注工具上进行标注辅助的工作,本质是一种辅助标注的手段。
从标注供应商的角度来说,一种理想形态是所有数据通过名为「自动标注」的辅助手段能够大幅度提高效率来获得成本上的优势+更高的议价空间。
所以,我们不难在各大标注供应商的介绍里面或多或少的看到他们对自家「自动标注」能力的宣传和展示,其中的展示,多使用的是专门选择的demo数据,也就是专门选择了让演示效果看起来完美的展示数据,这些数据或者和其算法之间存在“过拟合”或者是刚好在置信度高的区间或者是复杂度远低于实际的交付场景。
所以无论是宣传资料还是实际演示,都无法让你真正判断这家供应商「辅助标注」的实力,如果你想要入职或者是想要作为投融资的判断,这件事就更难了,很显然你不太可能真的通过大量真实的具有复杂度和场景覆盖率的数据提前真正测试。
但我有一些可靠的”盘外招“能够帮助你们进行判断
A. 比较大法
可询问你的调查对象A公司的「自动标注」能力和其他供应商之间的差异点,大概率不难发现没有核心差异点
B. 商业本质大法
不能提高商业价值的技术投入等于输流氓,如果对方鼓吹「自动标注」那么必然可以在价格和成本上存在明确的优势,也就是说最终需要落到两点
1 利润优势,一定明显的能够超过行业均值(如果有海外业务的要排除海外天然的价格差拉的均值)
2 甲方“忠诚度”
1 或者独家排他协议
2 甲方帐期优势
3 其他具有商业价值上特殊性的约定
如果你能看报表,还需要注意该公司是否有拖欠自己的标注团队(供应商)的帐期,以及有没有和供应商团队买流水做账。
C. 底层技术分析大法
通过感知算法训练的「标注算法」如果能够在标注作业中提高效率,有一个大前提,也就是在算法能力上,这些「待标注」的数据对于算法来说已经属于熟门熟路的,换句话说,供应商公司的标注算法能力超过其服务的甲方公司(这点就不用展开了)或者,供应商和其服务的甲方公司合作,通过甲方公司的算法或者复合形态来进行标注辅助,只是这种情况下,甲方公司通常会要要求更低的价格,而效率和价格的换算非常难以1:1计算,导致提高的这部分效率最终可能“得不偿失”
自动标注算法的准确率需要你通盘考虑,如果一个公司告诉你,他的算法准确率是XX,首先比较这个XX和公开的开源算法的准确率的区别,如果不如或者相同,意味着你有他也有0 0. 第二,正确看待准确率,如果一个算法准确率xx% 不等于100张图里有xx张不用标注,而是每张图里的所有标注对象的准确率是xx%/每个对象所需要标注的全部内容的准确率是xx%。
也就是说,大概率每张图都得修改0 0,而一张图的标注时间=图片上传+项目配置/图片张数+图片载入+查看图片+核对标注对象和属性+修改标注对象区域和属性的时间总和。
其能提高的效率非常有“边界”,和标注项目复杂度和原始数据本身有强相关性。
图像领域内的数据标注公司在训练算法上存在gap在于两点:
1 行业的红利归于数据项目管理者而非研发人员,导致人才引进非常难
2 数据标注公司不具有数据使用权,所以通过甲方公司的数据来训练算法本身上在商业上属于不合法。
最后说一点,如果AI真的可以自己标自己,我觉得人类应该考虑的只怕不是什么破标注问题了0 0 🤣
国内的图像数据标注行业最本质的问题在于甲方其实真的没有钱,采集就让他们捉襟见肘了,标注预算当然是越来越抠搜,体现为价格越来越低、帐期越来越长、要求越来越多。为什么国内的数据标注行业会给人供求关系奇怪,供大于求的感觉呢,核心是因为没有绝对的门槛,没有核心的差异化,对于甲方来说,谁都是可以替代的,当然没可能有什么忠诚度。当一个行业沦为价格战的时候,通常也意味着已是“破局”所有参与者都在攻城阶段。众所周知
上兵伐谋、其次伐交、其次伐兵、其下攻城。
「自动标注」改变不了攻城的最下之局,不然,他们都争相出海博个更高的差价干什么呢。👀