即刻App年轻人的同好社区
下载
App内打开
哈维xavi
238关注5被关注0夸夸
哈维xavi
5月前

熊猫ai甘蔗: 从Surge, Scale聊到我对数据行业的总体看法 Scale被Meta投资后,非常多人来咨询我对数据行业的看法。硅谷101在6.23这期视频中邀请我分析了几个关键问题,包括Alex为什么愿意加入Meta(感兴趣的朋友可以看看视频https://b23.tv/j4oAuYu)。昨天西元@西元Levy 又问我对Surge的看法,正好借此机会,我把大家最关心的几个问题系统整理一下,一并分享出来。 ⚡️1. 关于数据行业,大家有两个常见的误解: 第一个误解是,AI行业不需要人工标注数据了。但实际上,即便在强化学习的时代,高质量的人类数据依然非常重要。过去几个月,国内自媒体有一大批唱衰Scale的言论,认为有了强化学习就不需要人工标注数据。但Surge的revenue直接用真金白银证明了这种说法是错误的。 第二个误解是,认为数据行业就是血汗工厂的人力密集型行业。但事实上它是一个很有技术含量的科技行业。Surge的CEO Edwin在访谈里提到了一些关键点:如何衡量数据质量,如何衡量工作质量,如何让平台高效运转,以及如何了解frontier model所需要的数据类型和格式。 ⚡️2. 为什么数据标注依然是门好生意? 高质量的人工数据标注依然是一个极好的business,但竞争极其激烈。 首先,要在数据领域取得成功,公司必须以技术为核心导向。不管是Surge还是Scale,创始人都是MIT毕业的,员工也都是能够与大模型公司需求对话的人才。 其次,高质量数据的价格遵循非线性增长逻辑。高质量数据的价格可能不是普通数据的两倍,而是十倍、百倍的关系,很多人没有理解这一点。 第三,从公开信息可以看到,Meta同时使用了Surge和Scale,但在这种情况下,Meta还是选择对Scale进行大笔投资。这说明美国领先的模型公司非常重视人工标注的高质量数据,并不像自媒体圈狂欢时说的有了强化学习就不需要人工数据了。 第四,Edwin在talk中提到的许多要点——比如需要build的产品、API,需要与客户直接对话、快速响应数据需求——这些都是业内人士一直知道,但外界很少提及的practice。想做数据必须做最高质量的数据,这样才能赚到钱,而且能赚到非常多的钱,这一点其实跟大模型本身是一样的。 ⚡️3. Surge和Scale的区别是什么? 首先,在谈区别之前,Surge和Scale是非常像的两家公司。都是MIT出身的技术背景创始人,团队都充满了MIT、哈佛、斯坦福的名校生。业务也都非常专注做数据,优先从产品技术角度去解决质量问题。创始人也都对人才质量有自己的理解和追求,Edwin在访谈中强调了高人效,Alex冒着政治不正确的风险提出不要DEI,要MEI (merit, excellence, and intelligence)。 那么,为什么Surge可以提供比Scale更高质量的数据?核心是因为数据需求在不停变化,Surge出现时正好赶上大模型浪潮,从第一天就专门针对大语言模型做优化。而Scale是从自动驾驶时期开始的,经历了从自动驾驶到电商分类,再到大模型,还包括国防部的各种项目等多次转向。 其次,Surge的处理能力其实是不够的,吃不下那么多订单。客观来说,现在整个行业对数据的需求太大了,以至于你能提供多少高质量的数据,模型公司就能吃下多少。即便Surge的处理量再翻十倍,行业还是能消化得下。 在Scale被Meta投资之后,Surge现在处于一个很好的位置,成为最大的第三方中立数据服务机构。但因为这个市场非常巨大,还在非常早期,变数会很多。Surge现在可能也想融资扩张。 Scale和行业内其他公司肯定也会继续有生意可以做。局面可能是这样:比如最优质的数据是100分,但实际上没有人能做到,Surge可能做到80分,Scale可能是75分。当80分的数据量不够时,并不是说行业就不需要75分的数据了。大家都在非常努力地想把数据再往前推进一点,而且这个标准随着大模型能力的提高在更加快速的的提高。 ⚡️4. 谁能成为下一个(或XX领域的)Scale或Surge? 关于数据的话题,我还有一个观点要补充:最优秀的解决数据问题的团队,不是因为解决不了其他问题而退而求其次的团队,而是相信数据本身有价值的团队。 之前和不少国内VC交流,或者我了解的很多创业公司的做法,是想现在靠提供数据服务来养活自己,之后再做别的。我认为抱着这种想法的团队肯定做不好数据。

00
哈维xavi
2年前

yusen: 看了OpenAI dev day之后的一些想法,抛砖引玉一下: 看了OpenAI Dev Day,觉得OpenAI现在比较像PC时代Intel+Microsoft两家的结合,提供了芯片和操作系统以及最核心的几个杀手应用,通过技术升级+大Capex投入的规模效应来形成壁垒,同时做操作系统、应用商店和超级应用。 在芯片行业直接对标Intel的第二名还有机会,操作系统的第二名机会就很少了。大Capex投入形成的规模效应还是有被挑战的可能的,操作系统形成的网络效应和非常高的迁移成本,基本上非常难以挑战,并且更加赢家通吃。Dev Day之后很多人哀嚎OpenAI干掉了很多startup,本质上还是因为这些startup在做计算器写字板浏览器这样要么很简单没门槛,要么操作系统肯定会做的事情。 简单粗暴类比下历史,面对Intel+Microsoft,赢家有几种情况,第一种情况就是得像Character这样训自己的模型,在情感陪伴领域有很好的表现以及很低的推理成本,在一个细分市场里面有机会大幅超过openAI,类似于NVDA做GPU或者ARM做低功耗的芯片,然后再围绕独特的模型能力打造独特的产品和生态。 第二种情况是在Windows上构造类似Adobe这样和业务结合非常紧密,迁移成本非常高的软件,让微软自己做不出来。这会考验AI能力是否真的能和业务场景深度结合带来增量价值。 第三种情况是基于Windows提供的浏览器能力,做社交网络,电商等。核心还是用户数据和用户关系的沉淀。这里的关键会是AI的新能力如何形成之前无法产生的连接,以及这样的连接如何能够沉淀形成网络效应。移动互联网早期第一个把滤镜做到极致的不是instagram,而是Hipstamatic,当时红极一时,2010年还拿到了Apple App of the Year的荣誉,然而Hipstamatic的滤镜虽然做到了极致,但并不具备网络效应,现在估计都没几个人记得这个应用了。而Instagram虽然号称也是创始人Kevin从学摄影的经历得到灵感,但其实它的前身是一个叫Burbn的社交应用,做的是类似Foursquare的签到分享应用,这天生具备网络效应的设定,后来才改名为Instagram专攻照片拍摄和分享火起来的。第一波AI创业公司也必然会诞生很多Hipstamatic这样的产品。 同时Dev Day发布的Stateful API很重要,不只是因为降低开发者成本,更重要的是意味着用户在OpenAI模型上的时间投入开始产生了迁移成本。之前的GPT等于还是一个滴滴司机,和用户服务完没有留下记忆,下次见面需要用户重新把prompt和上传的文件再说一遍。现在真正变成了能记得住历史的助理,用户沟通的时间越长,积累的stateful数据越多,就越无法离开。目前看这个stateful的数据还没办法迁移,是和同一个OpenAI账号绑定的,类似这个助理还没办法跳槽去别的助理公司。 GPT4 API的定价大幅下降也是很关键的。用半导体产业类比的话,台积电创始人张忠谋在德州仪器工作的时候,针对半导体行业芯片一开始成本高,良率低,需要起量才能够提高良率降低成本的特点,颠覆了原来业界习惯性新芯片定高价的定价模型,提出了Learning Curve Pricing的概念,也就是行业领先者可以一开始就大幅度低于成本定价,使得先进芯片更快普及,倒逼产能升级,同时打压竞争对手。这一点和OpenAI现在面临的情况是很像的,模型成本还很高,但是需要更多开发者去帮助模型迭代,所以需要激进地补贴降低成本,而不是因为模型训练贵所以急于回本。

00
哈维xavi
3年前
来到即刻的第一天。
00