给各中文ChatGPT公司泼一盆冷水来自一名算法工程师、

即刻App年轻人的同好社区

下载

碎瓜

2年前

给各中文ChatGPT公司泼一盆冷水

来自一名算法工程师、多年生成式技术(现叫AIGC)从业者的一点看法。

王慧文意气风发的「AI英雄榜」打响了中国公司复刻OpenAI第一枪。从创业公司到巨头，无一不把自己的年度OKR改为「做中国版的ChatGPT」，抢人潮、秀肌肉和暗示自己将成为中国版OpenAI的软文一时甚嚣尘上。

我对OpenAI的了解最早要追溯到2018年，它当时的情况很不好，直到2019年GPT-2的发布，才把它从死亡的边缘拉了过来，本帖重点不是「OpenAI当年有多艰难」，我会试图从实际训练将面临的挑战来泼这盆冷水：

一.语料集

ChatGPT在中文上的表现十分出色，可是它很可能只使用了极少量的中文语料集。根据GPT-3公布的一份训练数据来源看(信息源来自twitter.com)，按使用的字符数(汉字个数)统计，中文只占了总语料的0.16%，而如果按单词数量(短语，如“石头”)来统计，中文只占总语料的0.099%。

这仿佛是在说：看！我只用了你这么一点数据，就做到了如此惊艳的中文支持。倘若用全中文语料，岂不是能做得更好？答案很可能是否定的。在学术界很多年前就流行过一个领域叫「few-shot learning」，研究者们发现：

当一个模型在A任务上训练了大量数据之后，给它提供少量B任务所需的数据finetune模型，它可以很快表现得比直接训练一个B任务小模型效果要好得多。

所以当一个巨无霸模型在海量英语数据集上训练完成后，只需要给它提供少量其他国家的数据，它可以很轻易表现出远超直接用该小语种训练模型的效果。毕竟，在互联网上英语数据集远比中文大得多。这甚至还不包括数据集质量、干净程度的对比。

二.ChatGPT有可能用了翻译

另一个我的发现是：ChatGPT的中文回答很可能是从英文翻译过来的。我做了一个Hack(m.bilibili.com): 让ChatGPT试图生成「随机相邻字符错乱的中文句子」，并给它提供了示例：
* 我去公园散步->我去园公散步
* 今天天气真好啊！-> 今天气天真好啊！

没错，这个游戏当初就是为了论证「人类对汉字序语不敏感」。令人惊讶的是，天文地理无所不知、能扮演Linux终端、能玩发明语言游戏、逻辑缜密的ChatGPT竟然做不到。

它有时会产生诸如「今天真好天气啊」或「我去散步公园」这类的短语错乱，有时会生成毫无语病的句子，即便你给它提供再多示例，它也始终无法理会。我对此的推测是：它很可能是把英文单词乱序了然后翻译成中文，所以导致：
> The weather is great today => The weather is today great
> 翻译成中文：天气今天很好

这样，即使你再怎么苦口婆心教导，它也无法将「青蛙(frog)」变成「蛙青」。也就是说，你在中文领域的对手有可能不是在用中文和你竞争。

三.人才虹吸

与很多人的想象不同，人工智能是少数中美两国实力相近的领域，从高引用学者、顶会论文数量和科研单位数量上，中美都是远远领先其他国家一个身位的存在。

但大语言模型(LLMs)并不是如此。就像在这一轮ChatGPT热潮中，微软、谷歌、OpenAI都在学术研究和模型训练上迭代了深厚的经验，甚至在元宇宙折戟的Meta，也在过去几年用Facebook AI Research(FAIR)主导了PyTorch框架，吸纳了何恺明等一众人才。

唯独不见苹果。苹果好像放弃了对大语言模型(LLM)、通用人工智能(AGI)的研究，这使得它在全民ChatGPT狂欢里好像没有任何水花，同样的情形现在也出现在了国内一众创业团队的头上：在ChatGPT出现之前，国内几乎没有做通用人工智能的大厂，赌技术路线的风险太高了。

所以当OpenAI证明只要模型足够大，就能碾压一切任务时，国内巨头才选择纷纷跟进。但是，从2022年AI绘画开始，我们好像突然入了大模型时代：作为普通NLP算法工程师，面对动辄亿级数据、上千块显卡炼出来的Stable Diffusion/GPT只有选择用与不用的权利，连「调参侠」这个称谓也快要丢掉了。

打不过就加入，对于最优秀的AI人才，头部AI公司的虹吸效应正在加剧：如果不想成为「api侠」，那就加入OpenAI成为改变世界的人，再不济加入Google成为挑战者。最近Google AI员工纷纷跳槽OpenAI的案例也证实了这一点。这些公司在框架、模型效果上多年的积累，很难被苹果以及国内大厂短时间超越。

总结：
1.某个语种的语料数据量优势，在通用模型面前可能并不明显。
2.OpenAI可能是用英语作为桥梁，再翻译成对应的语言。
3.在大模型时代，最优秀的人才会被虹吸。

当然，以上很可能是错的。期待不浮躁、踏踏实实做标注和训模型的国内团队，早日做出中文ChatGPT。

53 86

来自圈子

AI探索站

86000人已经加入