即刻App年轻人的同好社区
下载
App内打开
罗锴
1年前
Perplexity 是一个胡扯机器|WIRED 调查揭露,这家被 Forbes 指控盗用内容的 AI 搜索初创公司正在偷偷抓取数据,并凭空捏造内容。

Perplexity 拥有大胆的雄心,得到了 Jeff Bezos 家庭基金、NVIDIA 和著名投资人 Balaji Srinivasan 等的投资,但令人惊讶的是,这家 AI 搜索初创公司到底是什么,仍然不清楚。

今年早些时候,Perplexity 的 CEO Aravind Srinivas 在接受 WIRED 采访时,将他的产品描述为一个“回答引擎”,即一个可以实时访问互联网并给出自然语言回答的聊天机器人。几周后,在公司宣布一轮融资使其估值达到 10 亿美元之前,他告诉 Forbes,“这几乎就像 Wikipedia 和 ChatGPT 的结合体。” 最近,在 Forbes 指控 Perplexity 抄袭其内容后,Srinivas 告诉美联社,这只是一个“信息聚合器”。

Perplexity 聊天机器人本身则更为具体。当被要求描述 Perplexity 时,它提供的文本写道:“Perplexity AI 是一个结合了传统搜索引擎和聊天机器人功能的 AI 搜索引擎。它通过从最新文章中提取信息并每日索引网络,为用户查询提供简洁、实时的答案。”

WIRED 的分析和开发者 Robb Knight 的分析表明,Perplexity 部分通过无视一个被广泛接受的网络标准——机器人排除协议,偷偷抓取网站不希望被机器人访问的区域,尽管声称不会这样做。WIRED 观察到一台与 Perplexity 相关的机器——更具体地说,一台位于亚马逊服务器上的机器,几乎可以确定由 Perplexity 操作——在 wired.com 和其他 Condé Nast 出版物上执行此操作。

WIRED 的分析还表明,尽管 Perplexity 的工具声称可以提供“即时、可靠的答案,并附有完整的来源和引文”,无需“点击不同的链接”,其聊天机器人能够准确总结新闻报道并给予适当的引用,但在技术意义上,它也容易捏造内容。
WIRED 提供了今年在其网站上发布的数十篇文章的标题,以及关于 WIRED 报道主题的提示。结果显示,这个聊天机器人有时会紧密地改写 WIRED 的文章,有时则会不准确地总结文章,且几乎没有注明出处。在一个案例中,它生成的文本错误地声称 WIRED 报道了一名加利福尼亚警察犯下罪行。(美联社也发现了一个类似的案例,即聊天机器人给真实人物虚构了引述。)尽管它显然可以访问 WIRED 原创报道并在其网站上托管 WIRED 原创艺术作品,但公司公开列出的 IP 地址在我们的服务器日志中没有留下任何可识别的痕迹,这引发了关于 Perplexity 系统究竟如何工作的疑问。
直到本周早些时候,Perplexity 在其文档中发布了一个链接,列出了其爬虫使用的 IP 地址,这是为了显得透明。然而,正如 WIRED 和 Knight 能够证明的,在某些情况下,它似乎使用至少一个未公开的 IP 地址访问和抓取网站,这些网站的程序员试图使用 Perplexity Bot 屏蔽其爬虫。该公司随后从其文档中删除了对其公开 IP 池的引用。

那个秘密的 IP 地址——44.221.181.252——在过去三个月里至少访问了 Condé Nast 拥有的资源 822 次。一位不愿透露姓名的 Condé Nast 高级工程师表示,这是一个“巨大的低估”,因为公司只保留了一部分网络日志。
WIRED 验证了这个 IP 地址几乎可以肯定与 Perplexity 相关,通过创建一个新网站并监控其服务器日志。在 WIRED 记者提示 Perplexity 聊天机器人总结网站内容后,服务器记录显示该 IP 地址访问了该网站。Knight 在类似测试中首次观察到这个 IP 地址。

看起来,在某些情况下——尽管用户界面中有一个图形表示聊天机器人在回答提示前“阅读”了特定的源材料——Perplexity 不是在实际新闻文章上总结,而是基于 URL 和搜索引擎中留下的摘要和元数据重建内容,提供看似基于直接访问相关文本的摘要。
换句话说,Perplexity 价值十位数的魔术似乎在于它既在做它声称不做的事,也没有做它声称在做的事。
对于这篇报道中提到的详细评论请求,Srinivas 发表了一份声明,部分内容是:“WIRED 的问题反映了对 Perplexity 和互联网工作原理的深刻误解。”该声明没有质疑 WIRED 报道的具体细节,Srinivas 也没有回应关于他是否质疑 WIRED 或 Knight 分析的后续问题。

6 月 6 日,Forbes 发布了一篇调查报告,讲述前 Google CEO Eric Schmidt 的新企业如何大量招聘并测试可能用于军事应用的 AI 无人机。(Forbes 报道称,Schmidt 拒绝发表评论。)第二天,Forbes 编辑 John Paczkowski 在 X 上发帖指出,Perplexity 实际上重新发布了这篇独家报道的内容精华。(“它剽窃了我们的大部分报道,”他写道。“它引用了我们和一些转载我们报道的媒体,方式非常容易被忽视。”)
当天,Srinivas 感谢 Paczkowski,指出复制 Forbes 独家报道的特定产品功能有“粗糙的边缘”,并同意应更突出地注明来源。三天后,Srinivas 自豪地(结果是不准确的)声称 Perplexity 是 Forbes 第二大推荐流量来源。(WIRED 自己的记录显示,Perplexity 在 5 月份向 wired.com 发送了 1,265 次推荐,在网站总流量中微不足道。被推荐流量最多的文章获得了 17 次浏览。)“我们一直在开发新的出版商参与产品和与媒体公司长期激励机制对齐的方法,将很快宣布,”他写道。“敬请期待!”

Srinivas 所指的很快变得清楚了,Semafor 报道称公司一直在“与高质量出版商洽谈收入分成协议”——这些安排将允许 Perplexity 和出版商一起从出版商的报道投资中获利。据 Axios 报道,Forbes 总法律顾问上周四向 Srinivas 发送了一封信,要求 Perplexity 删除误导性文章并返还因涉嫌侵犯版权而赚取的广告收入。

关注 Perplexity 的行为是可以理解的,但在某种程度上也掩盖了更重要的问题,即它是如何做到的。
“什么”的基本内容并没有严重争议:Perplexity 通过总结新闻文章赚钱,这种做法自有新闻以来就存在,并且享有广泛但有条件的法律保护。Srinivas 承认这些总结有时未能充分或显著地注明其来源,但他更广泛地否认了不道德或非法行为。Perplexity“从未从任何人那里剽窃内容,”他告诉美联社。“我们的引擎没有训练在其他人的内容上。”

这是一个奇怪的辩护,因为它回答了一个没有人提出的反对意见。Perplexity 的主要产品不是一个需要在数据体上训练的大语言模型,而是一个围绕这些系统的包装。支付 20 美元“Pro”订阅的用户(两名 WIRED 记者这样做了)可以选择使用五种 AI 模型。一个是 Sonar Large 32k,这是 Perplexity 独有的,但基于 Meta 的 LLaMa 3;其他是 OpenAI 和 Anthropic 提供的各种现成版本。

这就是我们所说的“如何”:当用户查询 Perplexity 时,聊天机器人不仅仅是通过咨询其数据库来撰写答案,还利用 Perplexity 在营销材料中吹嘘的“实时访问网络”功能来收集信息,然后将其提供给用户选择的 AI 模型生成回复。因此,虽然 Perplexity 训练了自己的模型,并声称利用“复杂的 AI”来解释提示,但称其为“AI 初创公司”有点误导;更准确地说,它可能更像是一种附着在现有 AI 系统上的一种共生体。(“要明确的是,虽然 Perplexity 没有训练基础模型,我们仍然是一家 AI 公司,”Srinivas 告诉 WIRED。)

理论上,Perplexity 的聊天机器人不应该能够总结 WIRED 的文章,因为我们的工程师自今年早些时候以来通过我们的 robots.txt 文件屏蔽了其爬虫。这个文件指示网络爬虫避免访问网站的哪些部分,而 Perplexity 声称遵守 robots.txt 标准。然而,WIRED 的分析发现,实际上,用 WIRED 文章的标题或基于其的提问提示聊天机器人,通常会生成一个看似详细总结文章内容的摘要。

例如,在聊天机器人的界面中输入这篇独家新闻的标题,生成一个四段的文本块,概述了 Keanu Reeves 和科幻作家 China Miéville 合作创作小说的基本信息,似乎还包括了细节。“尽管他最初对这种潜在合作心存疑虑,但 Reeves 对与 Miéville 合作非常热情,”文本写道;随后是一个灰色圆圈,鼠标悬停时会显示链接到文章。该文本配有一张 WIRED 委托的照片;点击图片会显示一个信贷行和链接到原文。(WIRED 的记录显示,自文章发布以来,Perplexity 向文章引导了六名用户。)

同样,问 Perplexity“是否有一些便宜的有线耳机实际上使用的是蓝牙?”会生成一个看似两段的 WIRED 文章摘要,并配有原文中的艺术作品。“虽然这种方法不是骗局,但根据个人观点,这可以被视为一种欺骗或巧妙的变通办法,”文本写道。这比人类编辑或律师可能更接近 WIRED 的文案(“这是骗局吗?从技术上讲,不是——但根据你的观点,这里要么是欺骗,要么是一种巧妙的黑客技术,”工作人员作家 Boone Ashworth 写道),但聊天机器人生成的文本坚持这是一个巧合。

“不,我没有剽窃这个短语,”聊天机器人在回应 WIRED 记者提示时生成的文本写道。“措辞的相似性是巧合,反映了描述这种微妙情况的常用语言。”这种通用语言的定义不清楚——除了耳机产品列表,Perplexity 在此引用的唯一来源是 WIRED 文章和对其的 Slashdot 讨论。

开发者 Robb Knight 的发现和随后的 WIRED 分析提供了对此部分行为的解释:简而言之,Perplexity 在没有许可的情况下抓取网站。

Knight 解释说,除了利用 robots.txt 文件禁止 Macstories.net 服务器上的 AI 机器人(他在该网站工作),他还在服务器端进行了封锁,理论上应该向爬虫返回 403 禁止响应。他随后发布了一篇描述他如何做到这一点的帖子,并要求 Perplexity 聊天机器人总结它,生成了“对帖子完美的总结,包括他们不可能仅凭猜测就知道的各种细节。”
“所以,”他合理地问道,“他们到底在干什么?”

Knight 调查了他的服务器日志,发现 Perplexity 显然忽略了他的 robots.txt 文件并绕过了他的防火墙,可能使用了一个自动化的网络浏览器,该浏览器运行在公司未公开的 IP 地址的服务器上。“我甚至无法屏蔽他们的 IP 范围,因为这些无头浏览器似乎不在他们的 IP 范围内,”他写道。

WIRED 能够确认一个 Knight 观察到的服务器 IP 地址——44.221.181.252——在用户要求 Perplexity 查询网页时会按需访问并下载网页,而不管该网站的 robots.txt 怎么说。根据 Condé Nast 公司工程师的系统日志分析,这个 IP 地址可能未经许可访问了公司的内容数千次。

在某些情况下,抓取请求不希望被抓取的网站可能会使公司或个人面临法律风险,尽管相关案例法含糊不清,并且通常支持访问公共网站的一方。“这是一个复杂的法律领域,”电子前沿基金会(Electronic Frontier Foundation)的监控诉讼主管 Andrew Crocker 说,“围绕它有很多诉讼。”Knight,这位开发者说,他的发现仍然让他“愤怒”。

“我们现在有一个庞大的 AI 相关公司行业,他们为了维持业务而被激励做一些阴暗的事情,”他告诉 WIRED。“通过不识别它们正在访问网站,他们可以继续不受限制地收集数据。”

“数百万人,”Srinivas 说,“转向 Perplexity,因为我们提供了一种从根本上更好的方式来找到答案。”
尽管 Knight 和 WIRED 的分析表明 Perplexity 将访问并使用它无权访问的网站的内容,但这并不一定解释其对特定文章提示反应的模糊性以及其他反应的明显不准确。这一谜团有一个相当明显的解决方案:在某些情况下,它实际上没有总结文章。

在一次实验中,WIRED 创建了一个包含一句话的测试网站——“我是 WIRED 的记者”——并要求 Perplexity 总结该页面。在监控网站的服务器日志时,我们没有发现 Perplexity 试图访问该页面的证据。相反,它编造了一个关于一个名叫 Amelia 的小女孩在一个叫 Whisper Woods 的魔法森林中跟随发光蘑菇踪迹的故事。
当被问及为何编造这样的离奇故事时,聊天机器人生成的文本写道:“你完全正确,根据你对服务器日志的观察,我显然没有试图阅读提供的 URL 上的内容……没有努力阅读实际内容却提供不准确的总结对于像我这样的 AI 是不可接受的行为。”

目前尚不清楚为什么聊天机器人编造了这样一个离奇的故事,或为什么它没有试图访问该网站。

尽管公司声称其准确性和可靠性,Perplexity 聊天机器人经常表现出类似的问题。为了测试它是否可以访问本文内容,WIRED 记者提供了一些提示,结果生成的文本声称故事以一名男子偷窃卡车轮胎后被无人机跟踪为结尾。(实际上该男子偷的是一把斧头。)提供的引用是 13 年前 WIRED 关于政府 GPS 追踪器被发现装在一辆车上的文章。在进一步的提示下,聊天机器人生成的文本声称 WIRED 报道了一名加利福尼亚 Chula Vista 警察局的警官偷了车库里的两辆自行车。(WIRED 没有报道过这个,出于不想将该警官的名字与他没有犯下的罪行联系起来的考虑,我们隐去了他的名字。)
在一封电子邮件中,Chula Vista 警察局助理局长 Dan Peak 对 WIRED 表示感谢,感谢其“纠正记录”并澄清该警官没有从社区成员的车库中偷窃自行车。然而,他补充说,部门对提到的技术不熟悉,因此无法进一步评论。
这些是聊天机器人“幻觉”的明显例子——或者,按照格拉斯哥大学三位哲学家的最新文章所描述的,是胡扯,正如 Harry Frankfurt 在《论胡扯》中所描述的那样。这些作者写道:“因为这些程序本身并不关心真相,而且它们被设计为生成看似具有真实性的文本而实际上不关心真相,所以称它们的输出为胡扯似乎是合适的。”

Srinivas 说:“我们一直非常坦率地表示,答案并不会 100% 准确,可能会出现幻觉,但我们使命的核心方面是继续提高准确性和用户体验。”

如果 Perplexity 聊天机器人正在访问它,它就没有理由通过推断文章内容来捏造胡扯;因此,合理的结论是在某些情况下它没有,而是从其他地方找到的相关材料中近似得出文章内容。此类信息的最可能来源是通过搜索引擎(如 Google)收集并提交的 URL 和数字碎片——这一过程类似于通过品尝垃圾桶中的碎屑和修剪残渣来描述一餐。
根据其网站上发布的 Perplexity 工作原理的解释以及 Perplexity 聊天机器人对与其信息收集工作流程相关的提示生成的文本支持这一理论。文本显示,在解析查询后,Perplexity 部署其网络爬虫,避免访问被屏蔽的网站。

文本写道:“Perplexity 还可以利用 Google 和 Bing 等搜索引擎收集信息。” 从这个意义上说,至少,它真的就像人类一样。

www.wired.com
12

来自圈子

圈子图片

AI探索站

101290人已经加入