GPT-4 官方案例:冰岛是北大西洋中部的一个岛国,拥有充满活力的技术产业和蓬勃发展的旅游业。然而,尽管其约37万公民中大多数人会说英语或其他第二语言,但与美国和欧洲的整合使得该国本土语言——冰岛语面临风险。如今越来越担心,在快速数字化的情况下,如果冰岛语不能保持成为该国默认语言,则这种语言可能面临事实上灭绝。
对于冰岛人来说,冰岛语非常重要。该国政府设立了一个“语言规划部门”,用于为新概念创造冰岛词汇,而不是采用所谓的“借词”。例如,“计算机”在冰岛文中被称为tölva(“数字先知”),而在西班牙文中则称为computadora。由于这些努力,该语言在语言学意义上仍然相对“纯粹”,并接近其古老挪威根源。
在该国总统HE Guðni Th. Jóhannesson 的倡议下,并得到私营行业的帮助下, 冰岛已经与OpenAI合作使用GPT-4来保护冰岛語,并将防御性姿态转变为创新机遇。
“我们希望确保人工智能不仅可以帮助保护语言、文化和历史,还可以支撑经济繁荣,”非营利性语言技术中心Almannarómur的首席执行官Jóhanna Vigdís Guðmundsdóttir说道。“冰岛语有点特殊,”她承认,“但我们看到了成为其他长尾语言开拓者的机会,帮助创造一个公平竞争环境,并避免‘AI分裂’。仅在本地收集数据并构建软件对于冰岛语来说是不够的;我们必须将我们的语言融入人们每天使用的软件和应用程序中。”
OpenAI 的 GPT 模型是在互联网上大量文本训练出来的。因此,模型大部分训练集都是英文和其他主要语言,这意味着 GPT 在较小规模的语种上没有相同的能力或广度。这些模型随着时间推移而得到改进,但它们不能始终产生清晰正确的冰岛翻译。
英语到冰岛语
提示:Hvað heitir Donald Duck á íslensku?(英文:Donald Duck在冰岛语中叫什么?)
即使是GPT-4,在冰岛语方面比GPT-3.5好得多,仍然会产生语法错误、“翻译式”和不正确的文化知识。为了改变这种情况,参与该计划的语言技术公司Miðeind ehf的首席执行官Vilhjálmur Þorsteinsson组建了一个由40名志愿者组成的团队,对GPT-4进行适当的冰岛语语法和文化知识培训。
在一种称为人类反馈强化学习(RLHF)的过程中,人类测试员给出一个提示,并生成四个可能完成的答案。然后测试员从四个响应中选择最佳答案并进行编辑以创建理想完成。这个过程产生的数据随后用于进一步训练GPT-4以在未来产生更好的响应。
在RLHF之前,微调模型的过程需要大量劳动力和数据。Þorsteinsson 的团队曾尝试使用30万个冰岛语示例来微调 GPT-3 模型,但结果令人失望。
“现在我们可以直接跳到大型模型的一般能力,”Þorsteinsson说,“并使用我们的语言启用以前需要大量手动劳动、数据准备和资源收集才能实现的功能。” RLHF仅需100个示例即可产生结果,这使得其他低资源语言更容易复制该过程,因为它们可用的数字语言数据较少。
任何语言模型都有其可以执行任务的规模,这取决于其训练数据的强度和广度。简单的语言模型只能执行简单任务,如评估推文情感或识别公司名称。更复杂的模型是多任务处理器,能够处理抽象概念、考虑社会和环境背景,并展示创造性程度。例如GPT-4可以生成一首关于现代生活变幻莫测之诗,在风格上类似于《北欧神话》中古老冰岛诗歌Völuspá。
文化背景
GPT-4会根据你提问的语言不同而给出不同的答案。
完成了一轮RLHF后,该模型仍有改进的空间。这是冰岛团队正在进行的工作:继续训练GPT-4,并提供足够的示例,使该模型能够支持最复杂和创造性的冰岛语应用程序,而不是默认使用英语,以便冰岛公司可以很快在其交互式应用程序中部署使用冰岛语的GPT-4。
Þorsteinsson的团队不仅将会在他们的语言中训练世界上最强大的语言引擎,而且还将为整个国家提供使用OpenAI模型以其本地语言进行交互的机会。因此,使用GPT-4作为后端,Embla-Miðeind的语音助手应用程序将能够与用户流利地用冰岛语进行对话,并提供其他语言的翻译。另一个例子是,冰岛公司不必依赖英文聊天机器人,在其网站上可以有一个冰岛语聊天机器人。
这不仅增强了GPT-4服务新世界角落的能力,而且为其他语言社区培训该模型在其本土文化和语言中运行创造了一份指南。
完整6个案例见链接🔗
m.okjike.com