看了笑嘻了😅
如果有时间还是去读读R1论文吧,论文里最重要的创新是R1-Zero,Zero在训练的时候压根就没有用任何蒸馏和监督数据,通过无监督的强化学习就实现了比拟o1的强推理能力,后来为了让可读性更好,和人类习惯对齐,才用了少量的SFT数据(没记错的话约800k)和数千条的CoT数据,就才这点数据里面,有多少比例是来自OpenAI论文不知道,但其中还有一部分的ds-v3的数据,咋到你这就成了完全蒸馏OAI了??
我很尊敬OpenAI的贡献,真的,实话,但你这OAI精神股东的发言看起来确实有些有失偏颇😅😅你说是吧,哥们? //
@追风少年_17Da: 我的看法:
1.未经对方允许就使用对方的合成数据进行竞品训练这种行为绝对是道德有问题,不管你的目的有多伟大高尚哪怕是为了全人类的福祉不盈利。
2.没有人的屁股是绝对干净的不代表你就有道德制高点可以直接蒸馏别人的模型回答去训练竞品,别人从互联网上偷来数据费劲吧啦地进行训练和做实验,耗费大量的公司资源:时间人力物力财力,和你直接从对方的产品蒸馏答案去训练竞品,显然你更加可耻,屁股更加不干净,最后还理直气壮地以对方的训练数据不干净所以你就可以直接蒸馏对方的训练结果来为自己的偷窃行为合乎道德化,实在是可耻中的可耻。
3.偷互联网数据来自己训练和偷别人模型回答数据来蒸馏根本就不一样。openai擅自使用大量互联网上的他人数据进行训练不是合理使用,而其它公司直接蒸馏openai公司的回答数据更不是合理使用。理由:自己使用互联网数据来训练和直接蒸馏别人已经训练好的模型回答来训练性质完全不同,并不仅仅是自己节约了搜集互联网数据的那点不值一提的成本,还有训练开发模型的隐性成本,比如openai的科学家们,工程师们,其它工作人员的脑力成本,测试实验成本,高昂的芯片算力采购成本,摸石头过河的心理成本,兑付投资人的压力,训练消耗的电力和员工工资等叠加的综合成本。
并且,偷互联网数据和偷模型回答数据来进行训练得到的性能质量也完全不同,蒸馏的目的不仅仅是为了节约训练成本,也在于看上了模型更好的训练质量,如果模型的回答质量很差,还会有人想要去蒸馏它吗?应该不会,如果自己用互联网数据去训练就能够得到比蒸馏的性能还要好,还会有人去蒸馏吗?看性能提升是否巨大。
4.综上:openai怎么就没有资格限制你来蒸馏了呢?你直接偷他的模型回答去开发跟他类似的竞品还这么理直气壮,就因为他训练模型时使用了偷来的别人数据?所以你就自以为有了道德制高点傍身,有资格去偷他模型的回答去训练自己的模型了?你偷的可不仅仅是他的合成数据,还有回答数据背后隐藏的openai所有工作人员的汗水。