最近ChatGPT的提出引起一些新的关于NLP领域的热潮,今天看到了一篇有关ChatGPT的讨论
其中也引起了我的一些思考。
- 大规模语言预训练模型(LLM)对nlp的改变是彻底的和颠覆性的,几乎所有小的任务比如翻译,GLUE,情感理解,文本摘要。。。。都会被完全改变,成为预训练+finetune(prompt&instruct)的范式。而做这些领域的research的人就会受到比较大的影响。所有的不太偏向某专业领域知识的,单一的子NLP任务都会受到影响,不值得继续钻研下去,因为扩大预训练规模可以暴力的提高效果。
- 更高层次的理解(胡扯):自然语言任务本身就是一个整体的任务,人类在理解他人,感受情感,阅读,交谈等等所使用都是一个统一的有关语言的智能,既然LLM已经可以很好的模拟这个智能,那基于这个智能上的任所有务都会被很好的解决。
- 可能不会受到太大影响的方向:某些专业领域的nlp的研究会应用,比如医疗,金融领域,这些方向需要大量的专门的领域知识和文本来训练(且数据壁垒高,不容易获得),简单的基于LLM的finetune带来的优化可能不是那么强。比如,chatgpt在回答某些专业知识时,回答的逻辑通顺但是事实完全错误,就是缺乏专业领域知识的表现。
- 此外关于chatgpt的另一个思考,下一步可能需要更进一步提高事实的准确性。我想到的一个方案是预训练模型可能会需要一些可以被解释的无法被训练轻易改动的常识,类似于在任何情况下速度都不会超光速,这类尝试应该通过一些方式(知识图谱)来直接guide模型而不是通过大规模的数据去学习。如何抽取和表征这些常识并且嵌入LLM中也许会是个不错的方向。
- 关于语言模型的general research:如 LLM 的可解释性、训练与提示技巧、模型压缩和加速依然值得继续做下去。
- 关于落地,截止目前据我所知gpt3 和chatgpt都是只提供api没有公开模型,基于api的落地应用缺乏讨论的价值,虽然也许可以玩出很多花样。