大语言模型,特别是美国科技公司开发的大元模型,是有严重的语言偏食症,根本原因是95%以上的语料都是英语,下面是更多的事实和数据:
- Llama 2非洲语言生成准确率比英语低40%-60%。
- Gemini处理印度方言错误率是英语3倍。
- ChatGPT医疗问答在非英语语言准确率降至52%。
- Meta审核系统误删非洲合法内容,误判率34%。
- TikTok印尼方言审核误标致申诉率增27%。
- 主流AI对中东词汇误分类率68%。
- 巴西葡萄牙语暴力威胁漏报率45%。
- AI训练数据英语占比80%,非洲语言仅0.2%。
- 英语数据标注成本为非英语1/5。
- 非拉丁语言分词效率降30%-50%。
- 印地语训练语料规模为英语1/50。
- 印度方言超1.9万种,主流AI仅支持22种。
- 非洲语码切换致语义错误率55%。
- 非洲语言AI项目资金占比仅0.3%。
- Meta非洲审核团队仅5%精通本土语言。