关于LLM自生成数据集,Sam Altman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中,直接生成更高质量的数据集也成为趋势。
目前看到最新颖的相关研究是上个月微软和北大的WizardLM(基于开源的LLaMa 7B)【
arxiv.org】,模型能力上,复杂表现能够超越GPT3.5;研究方面也是少有的系统性地呈现自训练数据集的探索。
WizardLM把扩展数据集完全交给LLM。利用一个「精心设计」的prompt,模型自主将一个简单的问题/指令扩展、深化、复杂化。比如,可以从简单指令“1+1=?”扩展出更复杂、更具有难度的指令(图1)。简单翻了一下他们的prompt(虽然原本就是中国人写的XD)。
开玩笑地说,自生成数据集的路上,我们向着被LLM替代又近了一步。下一步很可能就是让LLM更有参照性地自生成prompt来自监督指令扩展,从而让训练更具效率。
* 这两天和老前辈工程师“友好交流”了LLM的表现,上一辈的技术人员相信精细的工艺和细末的细节,这是工业化的传统沉浸在程序和端口中的习性。但LLM明显更像一种认知体系、一种逻辑和行为的重塑框架,遵循着LLM,我们会走到更宏观的、边界模糊的世界中去吗?虽然有些过分乐观,但我常常“不得不”这样想。