AI的未来绝不仅仅是内容生成,而是带来一种以自然语言为基础的新的人机交互方式,下个时代大量的软件将面临交互革命。
2022年是大模型出尽风头的一年,上半年stable diffusion以及断断续续推出的各种文生图应用和年底的ChatGPT让互联网人争相关注的同时,也是AI近些年最出圈的一波热潮。身处AI创业公司做产品的我感受特别明显,从前那些对AI毫不关注的朋友现在都来问我文生图和ChatGPT相关的问题。
文生图和ChatGPT的爆火让很多人认为,AI的下个时代是AI生成内容改变现有的内容创作者生态,实际不止这样,这个结论是通过归纳的方式推演出的。
要理解本质,我们要借助第一性原理来思考,大模型最底层的技术到底在解决什么问题,其实通过理解ChatGPT的底层原理可以很好地理解大模型技术。
首先,在自然语言处理领域里,每一个字符在数字世界都对应着一个独一无二的向量,研究人员通过向超大参数规模的神经网络投喂大量的文本数据,让大模型通过自动调整参数来理解这些向量之间的关系,这样投喂的数据足够大以后,模型就能理解文本之间的关系,我们就得到了一个见过了几乎所有文本内容的预训练大模型(Pre Trained LLM),GPT的名字也是这么来的:Generative Pre-trained Transformer(Transfomer是常见的大模型结构)。
现在我们试试让大模型生成一段文本吧!当我们向预训练大模型发送一段话,模型会把这段话转化为一个向量序列或者矩阵,然后开始预测回复的序列的向量序列。根据预训练的数据,模型会计算每一个字符位置上最高概率出现的那个字符,每一个已经得到的字符会参与影响下一个字符生成的过程。
而聪明的你一定注意到了一个问题,预训练大模型确实见过了非常多的文本数据,甚至是互联网上所有的数据,有诗歌有文章有社交媒体聊天记录等等。可是如果我想让他按照一个特定的模式生成呢?比如,现在我要开发的是一个对话机器人,我希望他按照更像人和人对话的方式和风格为我回复问题,我应该怎么办?
研究人员们找到了一种叫fine-tune的方式来像教小孩子一样“教”大模型一种特定的模式。fine-tune简单解释就是在预训练大模型的基础上再用特定模式的数据训练它一次,让模型更倾向一种表达模式。ChatGPT就是在GPT3的基础上被再次针对性地用更像人和人对话的数据fine-tune了一次(其实不止,ChatGPT还被用代码-文本的数据fine-tune训练了代码生成类任务)。
这个时候我们又注意到一个问题,大模型生成的内容质量还不够稳定,有时候好有时候坏,那怎么提高呢?这时候我们就可以使用RLHF(Reinforcement Learning from Human Feedback)的方式再教教他什么是更好的回答。说白了,就是让ChatGPT对同一个问题多生成几个不同的回复,然后通过人工给这几个回复进行排序,让模型逐渐学会什么样的回复是更好的。当做了足够多轮次的RLHF后,现在我们的对话机器人基本就达到了一个还不赖的水平了。至此,我们也就见到了现在我们看到的ChatGPT。
那聪明的你一定可以想到,数字世界的一切的本质其实都可以被转化为向量,那我们是不是理论上可以用文本生成一切呢?事实确实如此,只是通过单一的大模型比较难达到很好的效果。
拿文生图举例,它的本质其实是两套大模型配合的结果,第一层模型来理解文本对应的图像长什么样,比如:杯子、仙人掌、美女等,第二层模型专门学习完整的画作的整体风格和局部之间的协调等。当用户输入prompt以后,第一层模型会将prompt转化为一些图片上会体现的关键特征,第二层模型再基于第一层的结果进行协调和融合,就像从点状扩散成一个面,得到一个完整的图画,所以第二层模型也叫扩散模型。
这也就意味着,只要你能用自然语言描述你想要什么,理论上来说,计算机就一定能为你在数字世界展示什么。当然,不同的任务需要对大模型做不同的结构调整,来保障任务执行的效果。
那大模型还能做什么呢?让我们来思考一些例子:
AI能帮我们做PPT吗?当然可以,只要能将PPT制作软件里的所有操作转化为向量后让大模型在充足的数据上进行训练以理解自然语言和这些操作之间的关系,我们就能只需要动动嘴皮子就可以得到PPT。你说是这种体验好,还是用鼠标键盘画PPT好。
AI能成为每一个学生的私人家教吗?当然可以,只要将习题的解题思路分步骤输出后针对性地训练为学生讲题的方式,甚至还能带一些孩子喜欢的动漫角色的说话方式,比如让蜡笔小新当我的数学家教。这不比孩子看视频自学体验好多了么。
例子太多不胜枚举了,还有很多很多我们可以设想的领域,都将面临自然语言的交互革命。
虽然现在做这个方向的公司不多,人才也不多,技术门槛也还没低到普通开发者和用户能创作AI大模型应用的程度,但是我们可以看到这个未来并不遥远了。大胆预测一波,2024年之前,会出现至少一款现象级的AI大模型软件应用,期待一波!