很多人问过我一个问题:筱萌你不是做AI的吗为什么要去做训练数据。我只是苦苦笑道:没办法,我想要做的AI,买不到训练数据。
买不到,那就自己创造吧。
很多人听到【合成数据】第一反应是假数据,是悖论。
写了一篇5000字人人都看得懂的白话文科普,让我这个做因数据所苦许多年的局内人从【训练数据】和AI的本质关系视角带你瞧瞧【合成数据】为什么才是链接未来的阶梯。
在文章里我有没有夹带私货?
有,作为卓印的co founder,不夹,不符合我的立场,更何况一切认知和研究都和卓印这件事儿脱不了干系。只是,我的认知并非凭空虚构,均是基于可查的事实,这货我夹带的并不心虚。👹
你说训练数据是脏活累活,可在我眼里,那是构成未来的🧩。
scaling law是否是智能涌现的最佳路径都不妨碍【合成数据】不仅是必经之路,更已是捷径。