Wordware上有一个Trending小应用叫“Try all the models for a single question”.
🔗
app.wordware.ai其实就是一个很简单的输入分发整合,因为集成这些主流大模型是Wordware本身就有的能力。而比分发问题多想了一步的点是,它还引入了一个优化反馈系统:
在你输入问题之后,它会按照问题处理、最佳答案评估、评估审查三个步骤,相对“科学”地帮助你在“答案之森”中跃出信息屏障。
这让我想到了我的一个长期方法论:初步了解一个圈子最快的方法,就是去论坛或者社群里找圈内人的争论焦点。多比较“权威”之间的相同点和不同点,能帮助你形成辐射区域更大的知识面。
已经达成共识却还能被拎出来讨论的相同点,往往就是有别于表面知识的“精华型共识”,而不同点,往往就是还有折腾空间和分化价值的前沿信息。
另外,我其实非常喜欢这些能用标题寥寥一行字就「交代清楚自己到底解决了什么问题」的单点应用。
事实上我也认为,现在是AI应用的过渡期,最适用于C端用户的工具(从好用的角度考虑,不去想商业化的事),仅就效率领域而言,最好应该在场景上被切得再碎一点,同时能力上集百家之大成。
因为,以我个人来说,对任何生成工具的不信任感,其实仅仅来自两个方面:
1. 它接入的底层大模型是在这件事上做得最好的吗?
2. 它喂了哪些数据,和我调性符合吗?
这也就是为什么,很多冠以各种专业能力的chatbot摆在面前,我其实并“不敢”用。因为当一个产品将自己定义为一项“像专业人士一样的服务”,给我的感觉就是在写一本名为《中国现代发展史》的书。写这书没毛病,但谁来写太重要了,而且往往我们也没那么多时间去做背调。
消除这两个信任疑虑其实是很难的,但当你把问题一起丢给所有最前沿的主流大模型,这就不是委派逻辑了,变成了“招标逻辑”和“投票逻辑”。
🎯 招标逻辑:谁给出的答案最符合你的认知属性,你就会把这个大模型加入你的初筛,再锚定和了解。单点问题问多了,总有一天你会发现,在这个领域,xxx就是最适合为你排忧解难的大模型。
🗳️ 投票逻辑:所有大模型的观点都言之成理,但可以给你一点统计学的价值。
话不多说举个例子,我用这个小应用随便提了一个没有标准答案的中文问题:最伟大的三位现代艺术家是谁?
GPT-4 / GPT-4 Turbo:毕加索,达利,安迪沃霍尔
GPT-4o:毕加索,马蒂斯,波洛克
Mistral:毕加索,杜尚,波洛克
Openchat:卢梭,莎士比亚,达芬奇(直接偏题)
Claude 3:毕加索,马蒂斯,达利
LLAMA 3:毕加索,达利,安迪沃霍尔
(还有一些其他的版本就不列举了)
最后这个应用帮我一通分析之后排的顺序是,它认为GPT-4 Turbo是表现最好的,Openchat表现最差。并在对没有完全用中文作答的大模型给予了一定权重的惩罚。
同样的问题,假如你对现代艺术一无所知,你只让其中一个大模型给你科普,那毕加索和波洛克在文本中可能没有什么区别。但当十几个主流大模型无一例外地回答了毕加索,你自然也就能感受到,尽管这是一个开放性的问题,这个人的地位仍然是不可撼动的。