给各中文ChatGPT公司泼一盆冷水
来自一名算法工程师、多年生成式技术(现叫AIGC)从业者的一点看法。
王慧文意气风发的「AI英雄榜」打响了中国公司复刻OpenAI第一枪。从创业公司到巨头,无一不把自己的年度OKR改为「做中国版的ChatGPT」,抢人潮、秀肌肉和暗示自己将成为中国版OpenAI的软文一时甚嚣尘上。
我对OpenAI的了解最早要追溯到2018年,它当时的情况很不好,直到2019年GPT-2的发布,才把它从死亡的边缘拉了过来,本帖重点不是「OpenAI当年有多艰难」,我会试图从实际训练将面临的挑战来泼这盆冷水:
一.语料集
ChatGPT在中文上的表现十分出色,可是它很可能只使用了极少量的中文语料集。根据GPT-3公布的一份训练数据来源看(信息源来自
twitter.com),按使用的字符数(汉字个数)统计,中文只占了总语料的0.16%,而如果按单词数量(短语,如“石头”)来统计,中文只占总语料的0.099%。
这仿佛是在说:看!我只用了你这么一点数据,就做到了如此惊艳的中文支持。倘若用全中文语料,岂不是能做得更好?答案很可能是否定的。在学术界很多年前就流行过一个领域叫「few-shot learning」,研究者们发现:
当一个模型在A任务上训练了大量数据之后,给它提供少量B任务所需的数据finetune模型,它可以很快表现得比直接训练一个B任务小模型效果要好得多。
所以当一个巨无霸模型在海量英语数据集上训练完成后,只需要给它提供少量其他国家的数据,它可以很轻易表现出远超直接用该小语种训练模型的效果。毕竟,在互联网上英语数据集远比中文大得多。这甚至还不包括数据集质量、干净程度的对比。
二.ChatGPT有可能用了翻译
另一个我的发现是:ChatGPT的中文回答很可能是从英文翻译过来的。我做了一个Hack(
m.bilibili.com): 让ChatGPT试图生成「随机相邻字符错乱的中文句子」,并给它提供了示例:
* 我去公园散步->我去园公散步
* 今天天气真好啊!-> 今天气天真好啊!
没错,这个游戏当初就是为了论证「人类对汉字序语不敏感」。令人惊讶的是,天文地理无所不知、能扮演Linux终端、能玩发明语言游戏、逻辑缜密的ChatGPT竟然做不到。
它有时会产生诸如「今天真好天气啊」或「我去散步公园」这类的短语错乱,有时会生成毫无语病的句子,即便你给它提供再多示例,它也始终无法理会。我对此的推测是:它很可能是把英文单词乱序了然后翻译成中文,所以导致:
> The weather is great today => The weather is today great
> 翻译成中文:天气今天很好
这样,即使你再怎么苦口婆心教导,它也无法将「青蛙(frog)」变成「蛙青」。也就是说,你在中文领域的对手有可能不是在用中文和你竞争。
三.人才虹吸
与很多人的想象不同,人工智能是少数中美两国实力相近的领域,从高引用学者、顶会论文数量和科研单位数量上,中美都是远远领先其他国家一个身位的存在。
但大语言模型(LLMs)并不是如此。就像在这一轮ChatGPT热潮中,微软、谷歌、OpenAI都在学术研究和模型训练上迭代了深厚的经验,甚至在元宇宙折戟的Meta,也在过去几年用Facebook AI Research(FAIR)主导了PyTorch框架,吸纳了何恺明等一众人才。
唯独不见苹果。苹果好像放弃了对大语言模型(LLM)、通用人工智能(AGI)的研究,这使得它在全民ChatGPT狂欢里好像没有任何水花,同样的情形现在也出现在了国内一众创业团队的头上:在ChatGPT出现之前,国内几乎没有做通用人工智能的大厂,赌技术路线的风险太高了。
所以当OpenAI证明只要模型足够大,就能碾压一切任务时,国内巨头才选择纷纷跟进。但是,从2022年AI绘画开始,我们好像突然入了大模型时代:作为普通NLP算法工程师,面对动辄亿级数据、上千块显卡炼出来的Stable Diffusion/GPT只有选择用与不用的权利,连「调参侠」这个称谓也快要丢掉了。
打不过就加入,对于最优秀的AI人才,头部AI公司的虹吸效应正在加剧:如果不想成为「api侠」,那就加入OpenAI成为改变世界的人,再不济加入Google成为挑战者。最近Google AI员工纷纷跳槽OpenAI的案例也证实了这一点。这些公司在框架、模型效果上多年的积累,很难被苹果以及国内大厂短时间超越。
总结:
1.某个语种的语料数据量优势,在通用模型面前可能并不明显。
2.OpenAI可能是用英语作为桥梁,再翻译成对应的语言。
3.在大模型时代,最优秀的人才会被虹吸。
当然,以上很可能是错的。期待不浮躁、踏踏实实做标注和训模型的国内团队,早日做出中文ChatGPT。