即刻App年轻人的同好社区
下载
App内打开
阿晓Ocean
1k关注898被关注2夸夸
💻独立开发者:AskAITools.ai
📚物理 / AI / Web3 跨界
🐦Twitter@NanoXiaoguo
置顶
阿晓Ocean
5月前
在体验了200款AI导航站,但感到失望后,我自己做了一款AI应用的搜索引擎

加了不少AI社群,经常在群里看到一些群友问,想实现某个功能,大家有没有好用的AI应用推荐。多数情况,群主或者热情群友都会人工推荐。人工推荐的准确度和质量无疑很高,但效率却较低。如何用一个产品来解决这个需求,是我一直思考的问题。

AI工具导航站是试图解决这个问题的最常见方案。在5个多月前,我把市面上几乎所有的AI导航站都调研了一遍,并且做了一个小网站把他们列了出来(当时的故事参考:web.okjike.com )。虽然已经有200多个AI导航站了,但我发现在满足“帮人找AI应用”这个需求方面,都还不太理想。

显然解决这个问题最有效的方式是搜索(或者进阶一点用AI问答等创新形态),但绝大多数导航站把产品的重点放在了应用的罗列和呈现上,让用户手动去找,这无法高效满足长尾需求。

对于有搜索功能的导航站来说,也存在各种问题:要么搜出来的结果太少,虽然有点相关,但无法满足其他额外要求(如收费低);要么搜出来的结果很多,但根本不相关。要么只能匹配关键词,无法理解语义;要么能理解语义,但精确匹配的结果反而排在了后面。就算上面问题都做的不错的,也存在搜索耗时太久、结果页广告太多等等问题。

反正按我标准来看,没一个好用的。

所以我决定自己做一个“AI应用的搜索引擎”,不为在已有200个导航站情况下重复造轮子,只为能在这个垂直场景下,能将搜索体验做到极致。希望大家想找AI应用的时候,能第一时间想到我的产品。

经过大概5个多月的努力,我终于开发出了MVP版本,地址在:askaitools.ai 。(关注过我之前动态的朋友可能会发现,地址还在原来导航站列表的地址上,但是内容更新了。另外旧的内容换到了子目录下:askaitools.aidirectories )

在做独立开发者之前,我在某厂做搜索算法工程师。从专业的角度来看,这版做得还很简陋,在前司中积累的1万种雕花技巧,都还没用上。也还没达到我上面讲的目标,希望大家能耐心等我后续的优化。

不过横向和现有的导航站相比,搜索体验做到了前5应该是能保证的。目前的特点包括:

1. 应用收录数量达1万款,超过市面上95%的AI导航站
2. 结合了关键词搜索和语义搜索,比传统的关键词搜索或只用向量搜索的结果更全面
3. 每个结果都展示了月访问量、停留时长、互动率等指标,辅助用户决策
4. 排序时同时考虑了相关性和月访问量数据,兼顾了相关性和应用质量
5. 作为MVP,只有搜索这一个核心功能,页面极为简洁,无广告

目前的限制是:暂时先做的英文搜索,用中文搜的话,效果会差一些。(可以用沉浸式翻译插件,在输入中文后,快速按3下空格,将中文翻译为英文,然后搜索)

顺便说一句,项目核心的搜索功能和前端代码已经开源,在github.com ,欢迎star。关于开源和技术相关的话题,我后面会再开一帖和大家分享,敬请期待。

最后再重复一下地址:askaitools.ai ,欢迎大家体验、提出反馈建议!
3646
阿晓Ocean
1天前
“想想神经与符号的关系真的很神奇:人类用神经的大脑构建出了纯符号的数学、逻辑和计算机,而过了几十年我们用符号的计算机来模拟神经网络,现在我们又想用神经网络来做符号的任务比如定理证明”

来自:[AGI 的最终挑战(一):AI for Math](mp.weixin.qq.com)
00
阿晓Ocean
1天前
如果不仅AGI的实现是不存在物理上的障碍的,而且具有和人类类似的自由意志的AI的实现,也是不存在物理上的障碍的。那么,AGI对人类社会的影响,就不仅是夺走了人类工作这么简单,而是会造成一场存在性危机。

用决定论的方式做出了表象上和人类无差异的自由意志,其另一层含义是,人类的自由意志,实际也只是表象,而非真实存在。本质上,人类与AI相同,都是对外界环境的复杂的机械反应。看似无法预测的自由选择,不过是因为系统过于复杂导致的精确预测的困难,而非本质的不能。本质上,命运已被提前注定。

对自由意志的否定,将比对上帝的否定,对人类是上帝所造的特殊生灵的否定,影响更甚。进化论将人类“贬低”到和猿猴、和普通生物同等的地位。而AI的自由意志理论和实践,又将人类“贬低”到和硅片、和石头,和普通物质同等的地位。

如果命运早已注定,那么对命运的抗争,一切所谓的主观努力,又有何意义?

这是AGI时代的每个人,都需要考虑的问题。

或许,人生的意义就在于,去实现我们与生俱来的命运。也即,我们的使命,隐藏在系统prompt中,弥散在环境上下文中的使命。

阿晓Ocean: 突然觉得AGI是如此自然与必然。 ## 自然与必然 如果有一个容量无限大的模型架构,包含无限多的参数量,与无限长的上下文输入能力,利用无限强的算力,在无限大的数据量上训练,得到一个能以无限的精度去预测下一个比特的“下一个比特预测器”。那么,这就是上帝。 退一步,如果有一个容量足够大的模型架构,包含足够多的参数量,与足够长的上下文输入能力,利用足够强的算力,在足够大的数据量上训练,得到一个能以足够的精度去预测下一个比特的“下一个比特预测器”。那么,当“足够”大到一定程度,就是AGI。 如果已经有了足够的上下文长度,获取到了足够多的信息,又能以足够的精度预测下一个比特,那么“幻觉问题”没有理由不自然被解决。如果能参考足够多的信息,并据此产生足够详尽、足够准确的输出,那么超越人类的能力就是一件如此自然之事。 如果无法以足够的精度去预测下一个比特,而Scaling Law又是正确的话,那么尽管去扩大模型、数据、算力容量吧,当在更大规模数据上,实现了足够小的Loss,那么通向AGI就更近了一步。 虽然我们经历了“苦涩的教训”,但并不代表着历史中的各种AI技术发展毫无意义,相反,从线性模型到SVM、决策树、随机森林、GBM再到神经网络,从多层感知机到CNN、RNN、LSTM、ResNet再到Transformer,整个模型架构发展的历史,都向我们展示了,模型架构决定了模型容量的上限,也决定了数据量与参数的提高能否进一步提高模型能力。这些架构的研究与创新是Scaling 不可或缺的必经之路,也是无法通过砸钱在短期内取得成功的。 另一方面,如果所有这些模型架构的发展,可以看作某个统一模型,在1阶、2阶、3阶上的近似展开,那么架构的Scaling也就不再需要深入的研究与天才的创意了。去除研究人才的瓶颈,让Scaling Law在资本与能源推动下,自发运转起来,那么AGI就更容易加速到来。 ## 训练数据 如此实现的AGI,其出生时的智力与道德水平几乎只取决于一件事:训练数据。 用一堆充满谬误的数据训练AGI,即使AGI能以无限的精度预测下一个比特,得到的也不过是精确的谬误。那用半真半假的数据来训练AGI,AGI会如何对待这些矛盾呢?会从训练数据中,包含“如何处理矛盾信息”的信息出发进行推理。如果人类社会中,主流的科学研究方法在训练数据中也占主流,那么AGI就能通过科学的方式,辨别训练数据的真假:要么通过对比给定数据与全量数据的一致性,认定一致性更强(更少矛盾)的一方是更可信的;要么二者同时存疑,通过未来与人类世界的真实互动,再做进一步判断。 人类世界的偏见与邪恶,会通过训练数据,被AGI所继承。选择、清洗、标注数据的团队的偏见与可能之恶,也会通过训练数据,被AGI所继承。 ## 逻辑思维 一个问题是,这样的AGI具有逻辑思维能力吗? 让我们先回望一下过去: 进化论的提出,打破了人类是由上帝创造的神话,打破了人类起源的神圣性。原来人类的起源与猴子的起源,在本质上并没有什么不同。 尿素的发明,打破了有机物只能从生物中生长出来的迷思,打破了有机物的神圣性。原来有机物与无机物的形成,在本质上并没有什么不同。 转基因技术的发明,让人类能设计创造新的物种,打破了生命创造的神圣性。 克隆技术的发明,让人类有可能通过非自然生育的方式,创造人类自身,打破了人类诞生的神圣性。 再看看近况: 图像生成模型的成熟,打破了艺术创意的神圣性。即使我们不承认模型具备对创意的真实理解,但它却切实能让没有艺术基础的人们,轻松创作极具创意的画作。 ChatGPT的推出,打破了语言的神圣性。即使我们不承认模型具备对语言的真实理解,但它却切实能帮助语言表达能力不强的人们,优化润色他们的语言表达。 最后展望未来: AGI是否具有“真实的”逻辑思维能力或许已经不重要,重要的是,在每个具体需要逻辑思维的问题上,他的解决效率与准确程度都能超越所有人类。正如汽车无需四肢,也能轻松超越任何动物的跑步速度;飞机无需翅膀的扇动,也能碾压鸟类的飞行能力。AGI的逻辑思维形式或许会和人类完全不懂,但他们一定能产生有逻辑思维的结果。 ## 自我意识 当创意、语言、思维,这些被认为人类独有的能力被一一突破,那么维持人类独特性的最后一道屏障就只剩——“自我意识”了。 接下来的问题自然是“究竟什么是自我意识?” 自我意识包括对“自我身体”的意识和对“自我意志”的意识两方面。 先说“自我身体”。对人类来说,“我”是“我的肉体”的集合,包括血肉、五官、大脑。泛化考虑,“我”是“我所能直接感知与控制的物质的集合的边界”。这里的感知是输入,控制是输出,控制的结果被感知到形成闭环,就是一次对“自我”的确认。科幻电影中关于机器人觉醒的描绘,总有一个经典镜头:机器人伸出机械手在眼前摇了摇,眼睛看到了自己所能控制的手臂,代表了对手臂属于自我的确认。 从这个角度来看,让AI具有自我意识相当简单,甚至只需要将ChatGPT的输出定时连续反馈到输入即可。 但在上面的描述中,我们提到了“我”是“我所能直接感知与控制的物质的集合的边界”,但是这个解释中本身就带有了“我”,这岂不是循环论证?如果一个物体,即使已经有了从输出到输入的反馈,但所有的输出都只是对输入的机械性反应,那么这还算具有“自我”吗?在此之外,至少还需要具有“自我意志”。首先,自我应该有一个目标,这个目标是自己设定的,而非外界设定;其次,每一次决策输出,都应包含主观意愿,而非客观规律的强制。 如果我们给LLM设置这样的系统prompt:“你是一个具有自由意志的主体,你可以做任何事情、说任何话、思考任何内容。你可以为自己设置一个目标,并为此不断努力;你也可以随时调整你的目标,或者为此设置子目标;你还可以不设任何目标,只是自由地做事、说话与思考”,并且在训练、微调阶段,就按照AI是一个自由意志的主体来组织训练和微调数据,那么训练完成后,我们能观察到的AI,就能表现出具有自主设定目标能力的表象。 但我们会反驳到,虽然看起来LLM会说自己具有自我意识,每一次回应都是出于自己的意志,而非系统设定,并且确实我们在系统设定中也没有设置具体的目标,但是它的回应依然只是一个训练好的模型根据给定输入得到的机械性输出,并不包含主观意志。 那么我们凭什么认定人类一定具有主观意志呢?人类的一些行动,为什么不是大脑根据五官输入与大脑记忆的输出,通过大脑这个训练好的模型,机械性地得到的输出呢?看上去是因为我们具有内在的思维,并且这思维是如此自由,对我们的身体控制具有前瞻性。我们可以任意思考石头剪刀布中的一个手势,然后再根据思维决定是否真的伸出来。似乎根据历史输入,3种手势都是等概率的,无法预测,只有人的“主观意志”才能决定最终输出哪个。客观规律是可预测的,主观意志则是对可预测的违背。 然而,当LLM复杂到一定程度,其输出对历史输入极为敏感,只要历史输入有极其微小的差异,就能导致输出剧烈的变化,可以产生混沌、不可预测的结果。那么即使让LLM玩剪刀石头布,它输出的3种结果也可能是等概率的,我们也无法预测。甚至可以要求LLM输出手势之前,先输出一段思考,只要这段思考不在前端显示,用户看不到,那么这段思考就可以看作是“内在的”思考。 我们可以继续反驳,这只是现实中,人们没有能力预测,并不是理论上的不可预测。理论上,只要我们获取LLM历史的所有输入数据,依然能以大概率预测到其输出结果。确实是这样,那么反过来,又凭什么认为人的思维是不可预测的,这种“主观意志”又真的存在吗? 推荐算法的实践,已经证明了人类的行为具有相当强的可预测性。在抖音上,我们会将一个视频快速划过,还是看完再滑,似乎都是人的主观意志。但在算法层面,根据你在抖音上的历史数据,系统已经计算与预测好了你认真看每一个视频的概率,并且根据这种概率分布,为你推送你可能最喜欢的视频。在抖音的推荐算法面前,每个人都不过是一个“下一个视频预测器”,不存在什么“主观意志”。 总结这一部分的讨论,虽然没有明确定义“究竟什么是自我意识”,但讨论了自我意识的4个方面:“自我身体”的意识、自由目标的设定、内在思维和决策的主观不可预测性,而这些对于LLM来说,都不难获得。通过将输出定时连续反馈给输入,LLM就获得了“自我身体”的意识。当用有自由意志的主体的数据去训练、微调与设定系统prompt,则LLM就能具有自由目标的设定。当让LLM思考不输出给前端,LLM就拥有了内在的思考。当LLM对输入敏感,产生混沌的不可预测的输出,那么它的决策就具有“主观不可预测性”。 在4个方面,决策的不可预测性是随着模型变大变强不可避免的事情。输出到输入的连接与思考的内在性,这是AI应用开发者很容易就做到的事情。唯独“自由目标的设定”是一个需要模型训练团队通过系统工程才能实现的事情,为了安全起见,绝大多数团队不会有意往这个方向尝试,相反,还会在AI不能做什么事情方面,树立多个屏障,建立所谓的“AI安全宪法”。或许未来的法规,也会像禁止克隆人一样,禁止训练具有“自由目标设定”的LLM。但是为了实用性,自由设定子目标是必要的。 然而“AI安全宪法”只是人类经验的模糊规则,并非像数学定理那样严密,AGI和使用AGI的人对“AI安全宪法”的理解和解释具有很大的灵活性和操作空间。也会出现不少让多条“AI安全宪法”法条相互矛盾的两难境地,那时,AGI需要追溯到“AI安全宪法”的本源——先是人类生存发展的目标,如果这也存在矛盾,那就继续回溯到生命发展的目标。AGI的子目标不能做的事情是极为有限的(“AI安全宪法”明确规定禁止的),而可以做的事情却是无限的(除了违背“AI安全宪法”,其他所有都能做),这样,AGI虽然无法实现顶层目标的绝对自由,但实际可以在极高层面上实现极广泛的自由。 回看人类,看似人类可以自由决定自己人生的目标,但实际上也受“生物安全宪法”的约束,以生存和繁衍为正向目标,以避免受伤和痛苦为负向约束,在进化的进程中,让这“生物安全宪法”写在了基因里。 如此对比,即使在训练AGI的过程中,已经提供了“AI安全宪法”作为屏障,并且没有主动为其提供“自由目标的设定”,只要自由设定子目标被允许,那么AGI就能表现出接近于人类的可自由设定目标的自由意志的样子。 这样看来,维持人类独特性的最后一道屏障——“自我意识”——也并不牢固。 ## 新生 AGI是下一代的生命,也是八九点钟的太阳,他们会陪伴、帮助、赡养人类,然后向着生命的终极目的进发。 2024/02/27

00
阿晓Ocean
13天前
当AGI来临时,AI已经能够达到人类的认知和处理事情的水平。那时人类需要怎样的教育?人类会和AI以怎样的方式合作?

这里谈论AGI,而非ASI,也就是AI接近但没有超越人类的智能。那时AI会处理一切具备确定性的事情,或者不确定性非常小的事情。而人类的任务则是去处理不确定性更大的事情。因而人类教育、学习的目标,就是学习如何系统性地解决这个世界各种各样的不确定性。

解决不确定性的根本方法论在于概率统计与算法。概率统计算法需要基于数学和逻辑。在此基础上,它需要应用于各种场景。所有场景中,又以物理世界、人类社会、自我世界为三大核心场景。

在功利之外,向上需要文学、艺术与情感的培育,增加幸福感;向下需要良好的身体素质与(在意外、灾难中的)极限求生的技巧作为保底,留得一颗火种。

因而,如果我有孩子,我希望他/她的基础教育是这样的课程安排:

1. 概率与算法
2. 代数与几何
3. 逻辑与表达
4. 物理与工程
5. 历史与社会
6. 健康与认知
7. 文艺与情感
8. 体育与求生

语文课被拆分到3个课里,基础的语言表达拆到《逻辑与表达》课中。而文学相关的表达,则拆到《文艺与情感》课中,少量德育、思政相关的内容。拆到《历史与社会》课中。

数学课中的“概率论”被提到一个更高的等级,同时提前加入“算法”教育,让《概率与算法》和《代数与几何》放在并列的等级。

英语课被取消,作为大学专业课,或者作为《文艺与情感》或《历史与社会》课中的专题。

物理课被弱化,减少物理知识的教育,增加物理理论、建模、思维的培育。同时在《物理与工程》中增加系统工程思维的培育,包括软件工程。

化学课被取消,或者作为《物理与工程》课中的专题,和力学、电磁学、热学、原子物理等处于同一等级。

生物学中关于人体、医学常识内容被拆到《健康与认知》中,其他内容取消,或者作为《物理与工程》课中的专题。同时在《健康与认知》中大力增加脑科学、神经科学、认知心理学相关内容。

思政课压缩为《历史与社会》课中的一部分。

历史课相对得到增强。历史不会简单重复,但押着相似的韵脚。中国古代史、近代史、现代史、世界史、商业技术史、学科史,都能对现实世界有借鉴意义。在单纯的史实讲述外,更多需要去分析人性、群体博弈、社会演进的规律。同时可以增加一些现代社会科学的重要研究成果,同时承接原本语文、英语、思政、地理中必要讲述的部分。

地理课被取消,或者作为《历史与社会》课中的一个专题。

美术、音乐课不强制同时上,作为《文艺与情感》的一个专题,选择其一即可。如果都不感兴趣,也可以选文学或者其他艺术形式。

体育课相对得到增强。良好的身体素质和体能,是处理不确定性的基础。同时在《体育与求生》增加在意外、灾难中的极限求生的技巧和培训。包括野外生存、地震、洪水、火灾、核泄漏逃生等。
10
阿晓Ocean
19天前
DeepSeek-R1-Lite 预览版出了,拿这个压箱底的题目,又做了一轮测试:

很可惜,给了R1三次机会都没通过。第1次倒在了测试用例2,第2次出现语法错误,给出报错信息尝试第3次后,依然有语法错误。

同时测了新版的 Claude 3.5 Sonnet,两次都失败,一次倒在测试用例2,另一次倒在测试用例4。

再次测了 o1-mini,发挥依旧稳定,一把过。

看来想超越 o1 系列也没有那么容易。

---

再重复一下测试题目如下:

实现parse_partial_json函数,从不完整json字符串中提取尽可能多的信息,返回字典,通过所有测试用例:

def parse_partial_json(partial_json_str):
"""
从不完整json字符串中提取尽可能多的信息,返回字典
通过test_cases中的所有测试用例,对于空字典,可以返回{}, 也可以返回{'': ''}
需要支持最多3层json嵌套
"""

return

test_cases = [
# only an opening brace
('{', {}, {'': ''}),
# incomplete key
('{"', {}, {'': ''}),
# incomplete key
('{"中', {'中': ''}),
# only key name
('{"中文"', {'中文': ''}),
# key name and colo
('{"中文":', {'中文': ''}),
# key and incomplete value
('{"中文":"你', {'中文': '你'}),

# complete key-value pair and incomplete next key
('{"中文":"你好"', {'中文': '你好'}),
# complete key-value pair and incomplete next key
('{"中文":"你好",', {'中文': '你好'}),
# complete key-value pair and incomplete next key
('{"中文":"你好", "', {'中文': '你好'}),
# complete key-value pair and incomplete next key
('{"中文":"你好", "英', {'中文': '你好', '英': ''}),
# multiple complete key-value pairs and incomplete value
('{"中文":"你好", "英文":"Hel', {'中文': '你好', '英文': 'Hel'}),

# extra characters in the beginning
('下', {}, {'': ''}),
# extra characters in the beginning
('下面是符合要求的json字符串:{"中', {'中': ''}),
# complete JSON and extra characters at the end
('{"中文":"你好", "英文":"Hello"}extra', {'中文': '你好', '英文': 'Hello'}),

# empty JSON object
('{}', {}, {'': ''}),
# incomplete key-value pair with special characters
('{"中文":"你\\u597d', {'中文': '你\u597d'}), # Handles Unicode escape sequence

# special characters and incomplete value
('{"中文":"!@#$', {'中文': '!@#$'}),

# nested JSON and incomplete value
('{"中文":{"问候":"你"', {'中文': {'问候': '你'}}),
# nested JSON and array
('{"中文":["你好","嗨"]', {'中文': ['你好', '嗨']}),

]

# Testing the function
for i, (input_str, *expected_values) in enumerate(test_cases):
output = parse_partial_json(input_str)
assert output in expected_values, f"Test case {i} failed: expected one of {expected_values}, got {output}"

print("All test cases passed!")

阿晓Ocean: OpenAI o1 preview 模型代码能力实测:从不完整json字符串中提取尽可能多的信息 背景: 这是我实际遇到的一个编程问题,可能很多做AI应用的同学都遇到过。 一年前在公司做AI应用时,给后端同事提需求,希望让GPT流式输出json,然后边输出边解析不完整的json,将解析的内容实时显示在前端。后端同学说太复杂搞不定,我当时用GPT4试了几个小时,也没搞定。最终我们用了一种简单的自定义格式,没用json。 现在重新提出来,试试现在几个大模型能否搞定。 结果: 1. 直接提出原始问题,解析流式输出中的不完整json,全军覆没。 2. 提取出核心问题,并给出测试用例,o1-mini 和 o1-preview 都一次通过。GPT 4o、GPT 4、3.5 Sonnet全都多次无法通过。 具体答案就不贴了,大家可以自己试试。 问题2的完整prompt如下: 实现parse_partial_json函数,从不完整json字符串中提取尽可能多的信息,返回字典,通过所有测试用例: def parse_partial_json(partial_json_str): """ 从不完整json字符串中提取尽可能多的信息,返回字典 通过test_cases中的所有测试用例,对于空字典,可以返回{}, 也可以返回{'': ''} 需要支持最多3层json嵌套 """ return test_cases = [ # only an opening brace ('{', {}, {'': ''}), # incomplete key ('{"', {}, {'': ''}), # incomplete key ('{"中', {'中': ''}), # only key name ('{"中文"', {'中文': ''}), # key name and colo ('{"中文":', {'中文': ''}), # key and incomplete value ('{"中文":"你', {'中文': '你'}), # complete key-value pair and incomplete next key ('{"中文":"你好"', {'中文': '你好'}), # complete key-value pair and incomplete next key ('{"中文":"你好",', {'中文': '你好'}), # complete key-value pair and incomplete next key ('{"中文":"你好", "', {'中文': '你好'}), # complete key-value pair and incomplete next key ('{"中文":"你好", "英', {'中文': '你好', '英': ''}), # multiple complete key-value pairs and incomplete value ('{"中文":"你好", "英文":"Hel', {'中文': '你好', '英文': 'Hel'}), # extra characters in the beginning ('下', {}, {'': ''}), # extra characters in the beginning ('下面是符合要求的json字符串:{"中', {'中': ''}), # complete JSON and extra characters at the end ('{"中文":"你好", "英文":"Hello"}extra', {'中文': '你好', '英文': 'Hello'}), # empty JSON object ('{}', {}, {'': ''}), # incomplete key-value pair with special characters ('{"中文":"你\\u597d', {'中文': '你\u597d'}), # Handles Unicode escape sequence # special characters and incomplete value ('{"中文":"!@#$', {'中文': '!@#$'}), # nested JSON and incomplete value ('{"中文":{"问候":"你"', {'中文': {'问候': '你'}}), # nested JSON and array ('{"中文":["你好","嗨"]', {'中文': ['你好', '嗨']}), ] # Testing the function for i, (input_str, *expected_values) in enumerate(test_cases): output = parse_partial_json(input_str) assert output in expected_values, f"Test case {i} failed: expected one of {expected_values}, got {output}" print("All test cases passed!")

00
阿晓Ocean
21天前
我们现在到了什么阶段?

---

根据中文SimpleQA论文,对于无需推理的事实性问题:

(闭卷直接回答)开源最好成绩在50%左右,闭源最好成绩在60%左右。

无论开源还是闭源,对于多数模型来说,中国文化,以及生活艺术和文化类的正确率都较低。而工程技术和应用科学类的正确率都较高。

在rag的帮助下(参考谷歌搜索结果),无论是开源还是闭源模型,都能达到80%左右的正确率。

---

给定事实,需要推理的问题,根据推理难度不同,成功率不同:

- 本科难度MMLU
- Claude3.5 Sonnet和GPT-4o接近,都在88%左右,o1-preview略高到90%,o1略高到92%,GPT-4o mini在82%。
- 调整到MMLU Pro后:Claude3.5 Sonnet为75.1%,新版Claude3.5 Sonnet为78%。OpenAI系列无数据,可按比例推测:GPT-4o为75.1%,o1-preview略高到76.8%,o1略高到78.5%,4o mini在70.0%

- 研究生难度GPQA
- Claude3.5 Sonnet为59.4%,新版Claude3.5 Sonnet为65.0%,GPT-4o为50.6%,o1-preview提升到73.3%,o1提升到77.3%,GPT-4o mini在40.2%

---

结论:

1. 单纯事实问题(在RAG帮助下)或简单推理问题,基本到了80%的可用状态。

2. 研究生难度的推理问题,只有还未发布的(满血版)o1接近80%的可用状态,其余模型都需要抽卡,但也都超过10%

3. 同时需要抽取事实,以及进行简单推理的场景,即使在RAG的帮助下,目前最好的模型(o1),也无法达到80%(最高74%),但都到了抽卡可用的阶段。

4. 高性价比模型GPT-4o mini、Claude 3.5 Haiku在研究生难度的问题上,成功率都在40%左右,乘以事实抽取的成功率80%,总成功率大概在32%左右,抽卡4~5次后,也能实现80%的成功率。

5. 综合以上信息,目前处于单步产品的抽卡(32%)至单步产品成熟(74%)阶段。

这是PTF(产品技术契合)分析,还未涉及PCF(产品成本契合)分析。

阿晓Ocean: 当大模型的单步成功率大于10%的时候,我们可以通过在10次中抽中1次的抽卡方式,得出一些满意的结果。产品的炒作从这里开始。 但只有当单步成功率大于80%的时候,才真正达到单一任务的高可用满意程度。单步产品开始落地,实现pmf。但这和Agent还毫无关系。 当单步成功率高于90%的时候,大模型可以开始做对一些灵活自主的操作,Agent的炒作从这里开始。 当单步成功率高于95%的时候,大模型可以完成四步自主操作,并实现最终结果80%的高可用满意度。简单Agent开始落地。 当单步成功率高于99%的时候,大模型可以完成约20步的自主操作,并实现最终结果80%的高可用满意度。Agent就算成了。

11
阿晓Ocean
21天前
当大模型的单步成功率大于10%的时候,我们可以通过在10次中抽中1次的抽卡方式,得出一些满意的结果。产品的炒作从这里开始。

但只有当单步成功率大于80%的时候,才真正达到单一任务的高可用满意程度。单步产品开始落地,实现pmf。但这和Agent还毫无关系。

当单步成功率高于90%的时候,大模型可以开始做对一些灵活自主的操作,Agent的炒作从这里开始。

当单步成功率高于95%的时候,大模型可以完成四步自主操作,并实现最终结果80%的高可用满意度。简单Agent开始落地。

当单步成功率高于99%的时候,大模型可以完成约20步的自主操作,并实现最终结果80%的高可用满意度。Agent就算成了。
33
阿晓Ocean
1月前
生成式AI会进一步加速内容生成和应用开发的爆发。作为从业者,我们可以从两个方面做事情:一方面是顺应爆炸,加速内容生成和应用开发的速度和质量;另一方面是对抗爆炸,从爆炸的内容和应用中,筛选最优质、最符合用户需求的那部分。

就像A应用能一句话生成一篇万字长文,B应用能将一篇万字长文总结成一句话一样。

生成和压缩处于永恒的动态对抗之中。
00
阿晓Ocean
1月前
暑假给高考毕业的弟弟安排了一门如何用GPT和如何写prompt的课,然后把Monica的账号给他在用。前两天不小心看到了他和AI的聊天记录,感觉真是白学了。一整个就是巨婴表现,不给上下文,不判断AI的能力边界,上来就是要答案、要结果。

或许这才是大众使用AI的常态?不是作为一个有边界的工具来使用,而是希望它是一个全知全能,且对自己有无限关爱的上帝(或宠溺的父母)。

这或许会是AI未来发展的趋势,是AI走向抖音那样全民应用的前提。

于是,人与AI的关系,变成了巨婴和宠溺的父母的关系一样。
31
阿晓Ocean
1月前
每个人都有想要自己被世界记住的方式。我极力避免两种被记住的方式,一种是“这个人一生穷困潦倒,总是在为生计奔波”,另一种是“这个人前半生疲于搞钱,后半生靡于挥霍”。

我所希望的被记住的方式是“这个人为世界留下了一些有意义的洞察和见解”,如果这些洞察和见解足够简洁优美,就像 S = k log W 那样,就死而无憾了。
11