关于LLM自生成数据集，Sam Altman也说他们几乎不需

即刻App年轻人的同好社区

下载

Causality_Z

2年前

关于LLM自生成数据集，Sam Altman也说他们几乎不需要人工标注了。在开源拥有更多可能性的图景中，直接生成更高质量的数据集也成为趋势。

目前看到最新颖的相关研究是上个月微软和北大的WizardLM（基于开源的LLaMa 7B）【arxiv.org】，模型能力上，复杂表现能够超越GPT3.5；研究方面也是少有的系统性地呈现自训练数据集的探索。

WizardLM把扩展数据集完全交给LLM。利用一个「精心设计」的prompt，模型自主将一个简单的问题/指令扩展、深化、复杂化。比如，可以从简单指令“1+1=？”扩展出更复杂、更具有难度的指令（图1）。简单翻了一下他们的prompt（虽然原本就是中国人写的XD）。

开玩笑地说，自生成数据集的路上，我们向着被LLM替代又近了一步。下一步很可能就是让LLM更有参照性地自生成prompt来自监督指令扩展，从而让训练更具效率。

* 这两天和老前辈工程师“友好交流”了LLM的表现，上一辈的技术人员相信精细的工艺和细末的细节，这是工业化的传统沉浸在程序和端口中的习性。但LLM明显更像一种认知体系、一种逻辑和行为的重塑框架，遵循着LLM，我们会走到更宏观的、边界模糊的世界中去吗？虽然有些过分乐观，但我常常“不得不”这样想。

112 840

来自圈子

AI探索站

86002人已经加入