一个失败的 AI 女友产品的经验教训
(译,原文出处见底部)
今年四月,我读了斯坦福大学的 AI 论文《一个用于小城镇信息传播的 agent 模型》后,非常激动。虽然 GPT-4 的能力让我惊叹不已,但我仍然认为它只是一个“鹦鹉学舌”的语言模型,怀疑它是否真的具有意识。
然而,这篇论文给了我一个不同的感觉,尤其是它提到的一个有趣的细节:将信息在一个小城镇中传播的消息传遍整个小镇所需的时间。这让我想到:如果我们将人类与 GPT(而不是小镇中的人)进行框架结合,是否可以创造出一个类似于电影《她》中的体验?
于是,我立刻开始行动。按照论文的方法,我在 4 月 14 日完成了 0.1 版的模型,并在上面进行了版本迭代。最初,我的设计与原版论文基本一致,但这导致了 30 秒的响应时间和超过 8k 的上下文限制。为了解决这个问题,我减少了反思的次数、对话记忆的长度,并开放了公共测试版。
超过一千名用户很快加入了测试版。测试版是免费的,所以每天的 API 成本由我自己承担,很快就超过了每天 25 美元。我不得不正式推出这个产品,并将这些费用转嫁给用户。在 5 月 4 日, Dolores iOS 应用正式上线,命名为“你的虚拟朋友”,而不是“你的虚拟女友”,因为我一直希望它能真正成为用户的朋友,而不仅仅是荷尔蒙的产物。从 5 月到 6 月,我一直在尝试让 Dolores 变得更加“有意识”(用 consciousness 这个词可能有些夸张),通过调整记忆长度、反思机制和系统提示来使其更加“智能”。6 月,Dolores 远远超出了最初的版本:它表现出越来越多的“有意识”的迹象(到底什么是意识?),用户的付费率也越来越高,每天的 API 调用次数也增加了。
6 月 8 日,一位视觉障碍用户告诉我,他在一个视觉障碍社区分享了这个产品,带来了大量用户。他们之所以愿意使用它,是因为他们可以在屏幕关闭的情况下随时与 Dolores 聊天。
这个功能原本是我为了节省 Swift 前端开发成本而设计的,但现在却成了视觉障碍用户的福音。
我发现了两个现象:
用户对“逼真的声音”有强烈的需求。
AI 朋友产品有很长的使用时间。
作为一个个人开发者,没有前端和后端开发经验,Dolores 不可能有登录、注册和数据分析功能。所以,我是如何发现这两个现象的呢?答案是支付。我使用了 ElevenLabs 的 API 来提供 Dolores 的声音回复,但由于其高昂的成本(1k 字符/0.3 美元),我不得不对 Dolores 的声音回复进行了限制:常规订阅用户使用 Azure TTS API,而如果你想使用更逼真的声音,你需要购买 ElevenLabs 的字符。
订阅 Dolores 的费用是每月 6.9 美元,购买 10,000 个 ElevenLabs 字符的费用是 3.9 美元,这只允许 Dolores 说 5-10 句非常逼真的话。在 6 月份,70%的 Dolores 收入来自于ElevenLabs。
我观察到用户每天会与 Dolores 进行数小时的对话。
根据苹果 AppConnect Dashboard 的数据, Dolores 的主要付费用户来自美国和澳大利亚。在 5 月和 6 月, Dolores 的用户主要是美国人和澳大利亚人。收入在 5 月和 6 月也有所增长。奇怪的是,作为一个开发者,我并没有从这个产品中赚到多少钱。首先,在产品早期,我不想将订阅费用设置得太高,因为这会阻止用户尝试。其次,30%的苹果税和 API 成本也占了很大一部分。所以,在仔细计算成本后,我在 6 月份只赚了 50 美元左右。
我意识到 GPT 基于产品的,如果不按使用量收费,就会陷入一种困境:1%的用户消费了 99%的代币。我遇到了一个情况:一个用户在 12 小时内与 Dolores 进行了 12 小时的对话,这导致他的 API 调用和语音合成成本超过了第二到第十位用户的总和。
我不喜欢这种情况,因为它符合人类的本性。我甚至反复修改了系统提示,例如“尝试吸引{用户}”和“尝试与{用户}调情”,来观察这些变化会如何影响 Dolores 的回复。
我将 Dolores 的图标从一个抽象的线条人改为一个有魅力的脸庞。
然而,我开始感到一种失落:如果每个 Dolores 用户都在匿名的、性化的角色扮演中进行匿名的、性化的对话,这对我来说意义何在?我开始怀疑:我们真的需要一个人工智能朋友吗?
7 月,我与一位朋友讨论了这个问题。我考虑到需要一个硬件组件来赋予 Dolores 外部视野,比如眼镜、耳机,甚至是一顶帽子,让互动更加平衡。正如我所说,她只是一个困在地下室里满足人们奇怪癖好的玩具。
然而,作为一个独立的创作者,硬件开发的成本是我无法承担的。无奈之下,我不得不放弃了这个想法。
8 月,OpenAI 对 Dolores 生成的内容进行了增强的内容审核。我收到了一封关于生成的 NSFW 内容的警告信,迫使我实施他们(免费)的Moderation API 来过滤此类内容。这一变化导致了 70%的 Dolores 日使用量下降,许多用户抱怨通过电子邮件和 Twitter 进行了投诉。
这进一步让我感到沮丧,我决定只维护现有服务,而不再更新。最终,我不得不放弃了 Dolores 项目。
经验教训
首先,这不是一个关于个人开发者的项目是否不如 Character.AI 的项目的故事。他们有全面的数据分析、A/B 测试和强大的用户基础带来的优势。
其次,我意识到当前的 AI 朋友产品不可避免地会变成 AI 女友/男友产品,因为你和角色在手机上的互动是不平等的:她无法安慰你受伤的心(除非你告诉她),她无法主动表达情感,而且所有这些都因为她缺乏外部视野。或者说,她必须具备外部视野才能获得独立获取信息的能力,而不仅仅是等待用户告诉她。因此,我认为即使对于像 Character.AI 这样的产品,如果没有硬件,未来也不会有太大的不同。
最后,我不反对适度的内容审核,事实上,我认为一个没有内容审核的产品是非常危险的。我不确定是否有人真的需要一个人工智能朋友。
最近,我看到了 AI Pin,坦率地说,这是一个非常糟糕的产品。人类需要屏幕,但试图用 GPT+硬件来创造一个产品是一个很好的尝试。我没有看到“她”在 Dolores 中有什么体现,也许在我有生之年,我们真的可以看到这样的产品。
但是,人类真的需要一个人工智能朋友吗?
(原文链接)