🕊️ 为什么 Meta 会开源无比强大的AI 模型?
Meta 近期开源了强大的大语言模型Llama2,这是改变AI世界底层游戏规则的一个举动。
这篇来自Vox的精彩报道,更生动而具体展开深入的思辨,它撕裂了科技界;希望更多人能参与新世界最重要议题的思考和讨论中来。
(Llama 2为什么强大和重要,请参见这里的解读
m.okjike.com )
💫 精彩要点和 Takeaway:
- Meta开源的Llama 2 无比强大,可以对标Chat GPT,训练成本也是很高,为什么要免费开源?
- 除了冲击ChatGPT的领先地位,更重要的还是关于AI安全的核心问题,谁有权控制AI,谁来防止危机。
- 为什么Open AI 不开源? 联创Ilya Sutskever 曾明确告诉科技媒体,“ 如果你相信AGI会到来的话,这是一个坏主意。”
- Meta 相信,开放的技术会导致透明的讨论,以及更敏捷的面对危险,最终构建负责任的AI。
- 安全更重要的问题,不是虚假,而是控制。普林斯顿大学计算机科学教授Arvind Narayanan “坏人的天花板不是生成虚假内容,而是传播它并说服人们相信。”
- 开源会带来巨量的创新。如果你是开发者或AI 研究员,立刻能明白Llama 2 开源所打开的无限可能性——你无需把数据发给第三方,也无需海量的算力——就能定制出自己的模型,AI 创业公司将雨后春笋般诞生,甚至传统的企业也能重新拥有自己的定制模型。
- 开源是打开群体的智慧。去中心化,对抗权力集中,以及防止单一文化;就像AI 这个技术本身的诞生,它代表着人类跨领域、跨地区、跨文化的持续分享才能达到今天的结果。
- 开源,也有可能带来严重错误。 假冒、伪造他人身份等, 都变得更加容易。 Arvind Narayanan 相信开源的重大意义,也提醒人们它具有风险。
📖 全文报道如下:
上周,Meta在AI世界中做出了改变游戏规则的举动。
在其他像Google和OpenAI这样的领先AI公司紧密保护他们的"秘方"的时候,Meta决定免费发布支持其创新新型AI大语言模型的代码,这就是Llama 2。这意味着现在其他公司可以使用Meta的Llama 2模型,一些科技人士说这在功能上可以与ChatGPT媲美,来构建他们自己的定制聊天机器人。
Llama 2可能会挑战ChatGPT的统治地位,它打破了成为有史以来增长最快的应用之一的记录。但更重要的是,它的开源特性为谁应该控制AI——以及它是否可以被安全化——的重要道德辩论带来了新的紧迫性。
随着AI变得更先进、可能更危险,如果代码被隐藏起来——限制给一小部分公司的员工使用——对社会更好,还是应该与公众分享,以便更广泛的人群可以参与塑造这种变革性技术?
顶级科技公司采取了不同的方法
在Meta的Llama 2声明中,Mark Zuckerberg在Instagram上发布了自己与微软CEO Satya Nadella微笑的照片,宣布两家公司在发布上的合作。Zuckerberg还阐述了为什么领先的AI模型应该是“开源”的,这意味着让技术的底层代码对任何人都可以使用。
“开源推动创新,因为它使得更多的开发者能够使用新技术,”Zuckerberg在另一篇Facebook帖子中写道。“它也提高了安全性,因为当软件是开源的,就有更多的人可以检查它,找出并修复潜在的问题。”
这一举动受到了许多AI开发者、研究者和学者的欢迎,他们表示这将给他们提供前所未有的机会来构建新的工具或研究系统,否则创建这些系统的费用将高得令人望而却步。像ChatGPT这样的尖端大语言模型的创建和维护成本可能达到数千万美元。
“我只是在准备自己看看会发生什么样的进展,”开源AI平台Hugging Face的研究负责人Nazneen Rajani说,该平台与Meta在发布上进行了合作。Rajani在Twitter上写了一篇关于Llama 2能力的评估帖子,她告诉Vox:“我们将能够发现更多关于构建像GPT-4这样的模型实际需要什么的秘密成分。”
但是,开放源代码的AI带来了重大风险。包括微软支持的OpenAI和Google在内的一些领域最大的玩家,已经在限制他们的AI系统有多少是公开的,因为他们引述的这些技术的严重危险。
一些科技人士越来越担心假设的末日场景,在这种场景中,AI可以比人类更智能,以造成伤害,如释放生物超级武器或以我们不能完全想象的其他方式造成破坏。 OpenAI联合创始人Ilya Sutskever 2月告诉The Verge,他的公司在过去更公开地分享模型细节时“完全错误”,因为如果AI某天像人类一样智能,达到所谓的AGI或通用人工智能,与大众共享这种智能将不明智。
“如果你像我们一样相信,在某个时候,AGI - 人工通用智能 - 将非常、难以置信的强大,那么开源就不合逻辑。这是一个坏主意,” Sutskever当时说。
尽管我们可能还远未达到能够对人类造成真正破坏的AI,但我们已经看到来自开源社区的AI工具被误用的其他方式。例如,在Meta 2月仅出于研究目的发布其第一个Llama模型后不久,它就泄露到了几乎任何在线内容都被允许的匿名在线留言板4Chan,然后被用于创建聊天机器人,喷出仇恨内容,如种族主义侮辱,在某些情况下,还包含graphic暴力场面。
“我们非常重视这些问题,并采取了多项措施来支持负责任地使用Llama 2,”Meta的生成式AI副总裁Ahmad Al-Dahle在给Vox的电子邮件中写道。这些措施包括在发布之前通过提供预计会产生“危险输出”的提示来“红队”或压力测试该模型,如关于犯罪行为和仇恨内容的提示,Al-Dahle说。 Meta还微调了其模型来降低这种行为,并制定了新的准则,禁止某些非法和有害的使用。
“我们认真对待这些问题,并已经采取了一些措施以支持我们负责任的开发Llama 2的方法。”Meta的生成式AI副总裁Ahmad Al-Dahle在给Vox的一封电子邮件中写道。这些措施包括“红队操作”,即在发布模型前通过给模型输入可能产生“风险输出”的提示来对模型进行压力测试,比如与犯罪行为和仇恨内容相关的提示,Al-Dahle说。Meta还对模型进行了微调,以防止这种行为,并发布了新的准则,禁止某些违法和有害的使用。
Meta表示,将在模型发布后继续进行安全微调。
“当技术在公开的环境中发布和改进时,我们认为它最终会带来更透明的讨论,对应对威胁的反应能力增强,以及在构建更负责任的AI工具和技术方面的迭代增强。” Al-Dahle说。
例如,一些专家指出,在AI以当前形式存在之前,我们就已经有了虚假信息的问题。他们说,此刻更重要的是如何分发那些虚假信息。普林斯顿大学计算机科学教授Arvind Narayanan对Vox说,“恶意行为者的瓶颈不是生成虚假信息,而是分发它并说服人们。”他补充说,“无论是开源的还是非开源的,AI并没有使这些步骤变得更容易。”
为了试图防止虚假信息的传播,创建AI模型的公司可以对他们的程序使用方式进行一些限制。例如,Meta有一些规则禁止用户使用Llama 2来煽动暴力或骚扰,但这些规则可能很难执行。
值得注意的是,Llama 2也并非完全开放。Meta并未公开用于训练最新模型的训练数据,这是任何AI系统的关键组成部分;研究人员说,衡量AI系统偏差是至关重要的。最后,Meta要求拥有超过7亿月活跃用户的公司——基本上只有像Google这样的几家科技巨头——在使用软件前要询问Meta的许可。
然而,总体而言,Llama 2是我们最近从一家大型科技公司看到的最开放的开源AI项目。这引出了其他公司将如何回应的问题。
那么,支持和反对一个更开放的开源AI世界的理由分别是什么?特别是考虑到Meta的最近宣布,我们似乎正朝哪个方向前进?
开源可以带来更多的创新
如果你是AI工具如ChatGPT的普通用户,你可能看不到开源AI模型的直接好处。但是,如果你是AI开发人员或研究人员,开源LLM(如Llama 2)的推出将带来无数可能性。
“这是一件大事,”AI初创公司Chroma的联合创始人兼技术负责人Anton Troynikov说。他们的公司构建了开发人员可以插入AI系统以使用他们的数据、事实和工具的数据库。
对于像Troynikov这样的人来说,使用Llama 2可以让公司给其用户更多控制其数据使用方式的权力。
“现在你不必将任何数据发送到你的系统之外,你可以在自己的机器上以100%的方式运行它。” Troynikov举了医生不需要将病人的医疗记录暴露给第三方的例子。“你的数据不再需要去任何地方就能获得这些神奇的能力。”
Troynikov说他个人刚刚开始使用Llama 2,并仍在测试它与他的公司的技术有多好的配合。
现在还为时过早,无法确切看到Llama 2会被如何使用,但Meta的Al-Dahle说,他看到了“在创建帮助提高生产力、客户服务和效率的基于聊天的代理人和助手方面的一系列可能性,这些可能性可能以前并没有能力接触和部署这项技术的企业。”
这里也有对改善Meta自己的产品的自我利益。如果Meta将其AI模型投入野外,那么外部工程师的开源社区将会改进其模型,Meta可以利用这些模型来构建公司已经在研发的应用内AI工具,比如商务助理聊天机器人。
这样,Meta就不必将所有资源投入到追赶OpenAI和Google,这两家公司在将生成式AI工具投入主要产品线方面已经领先一步。
开源AI将挖掘“群体智慧”
一些领先的专家认为,如果AI模型是开源的,它们可能会变得更聪明,总体上在伦理方面的缺陷也会减少。
通过开源AI模型,更多的人可以在其基础上进行构建和改进。开源AI公司Stability AI已经创建了一个名为“FreeWilly”的模型,该模型建立在Llama 2之上。它迅速流行起来,并现在可以在一些测试中超越其创始模型Llama 2。这使得它跃居Hugging Face的排行榜开源AI模型的首位。
Rajani说:“Meta以外的人在Meta的自身性能和它们精心收集和策划多年的自身模型上打败了Meta。他们能在一周内做到。” “要打败群众的智慧非常困难。”
与此同时,AI社区在开源知识方面有着悠久的历史。谷歌构建并公开分享了变换器模型,这是一个通过追踪数据各部分之间的关系(例如句子中的单词)来理解上下文(例如语言)的神经网络。该模型已经成为尖端AI模型的基础,并被用于许多应用,包括ChatGPT中(GPT中的“T”代表变换器)。
普林斯顿大学教授Arvind Narayanan指出,开源模型允许研究人员更好地研究AI的能力和风险,并阻止权力集中在少数公司手中,指出了形成技术“单一文化”的风险。
他说:“单一文化可能会产生灾难性的后果。当同一模型,例如GPT-4,被用于成千上万的应用程序时,该模型中的任何安全漏洞,例如越狱,都可能影响所有这些应用程序。”
历史上,专家指出,AI之所以作为一个领域茁壮成长,是因为公司研究人员、学者和其他专家愿意分享笔记。
人道智能非营利组织的联合创始人Rumman Chowdhury说:“数据科学和AI之所以是一个庞大的产业,实际上是因为它建立在知识共享的文化基础上。” “我认为对于那些不在数据科学界的人来说,要意识到我们彼此之间给予了多少是非常困难的。”
此外,一些AI学者表示,开源模型允许研究人员不仅更好地找到安全缺陷,还能找到大型语言模型中更多的定性缺陷,这些模型已被证明会延续偏见、幻觉或其他有问题的内容。
虽然公司可以事先测试其中的一些偏见,但有些研究人员争辩说,直到这些模型暴露在外界,很难预料到每一个负面结果。
Rajani说:“我认为需要对漏洞可以被利用到什么程度进行更多的研究。需要进行审计和风险分析,并拥有一份风险报告……所有这些只有在你拥有一个可以被研究的开放模型时才能完成。”
但开源AI也可能出现严重错误
即使是最热衷于开放AI模型的支持者也承认存在重大风险。AI如何可能出错的范围从更容易伪造人们的身份到在理论上消灭人类。在这个情景中,最紧迫的论点是,如果AI达到了某种人工普适性智能,那么它可能有一天在我们无法控制的方式上胜过人类。
在最近的一次参议院听证会上,OpenAI的首席执行官Sam Altman告诉国会,有关AI的所有危险,你真正需要小心监视的人数越少——在绝对的,刀尖上的能力,监管就越容易。
另一方面,即使是Altman也承认允许开源社区成长的重要性。他建议设置某种限制,以便当模型达到某种特定任务的“能力阈值”时,应被迫从政府获得许可。
这是一点,一些开源支持者似乎同意Altman的观点。如果我们达到了AI模型接近超越人类的时候,那么也许我们可以在开源上踩刹车。
但是,对于AI来说,挑战性的问题是,我们在什么时候决定它太强大以至于无法留任其自由?如果在那个时候已经让魔鬼出瓶,那么是否就无法停止AI的进步?这些问题现在无法确切回答。但是,与此同时,开源AI在这里,虽然存在实际的即时风险,以及可能在未来逐步积累的风险,但是让更广泛的人群考虑这个问题也对我们所有人有明显的好处。
原作者:Shirin Ghaffary 是覆盖社交媒体行业的高级Vox通讯员。在此之前,Ghaffary在BuzzFeed News、旧金山纪事报和TechCrunch工作。
Vox原文地址:
www.vox.com🌳 后记:
AIGC的伟大意义在于平权和创造,因此,AI的安全和伦理问题也越来越紧迫;无论你是创造者、使用者还是守护者,都值得深入了解这场非零和的战役。 邪恶从来都在暗处,光明需要更多的使者;开源带来无限变革的可能,依赖更多有识之士加入这场困难的思考和战斗,只有这样,未来才能属于真正的乐观主义者。