即刻App年轻人的同好社区
下载
App内打开
阿晓Ocean
1k关注527被关注1夸夸
💻独立开发者
🛠️搞点对创作、开发、研究有用的小工具
📚物理 / AI / Web3 跨界
🐦Twitter@NanoXiaoguo
阿晓Ocean
4天前
尝试复现 GPT-4o 博客(openai.com)里的能力展示案例,结果一个都没复现成功。。。大家有复现成的吗?
10
阿晓Ocean
4天前
看完了 GPT-4o 发布会的所有视频、博客和相关 Twitter 内容,总结一下:

发布会主要内容:

GPT-4o 能力:
- 它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
- 它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。GPT-4o 之前使用语音模式对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)
- 它现在可以观察音调、多个说话者或背景噪音,也可以输出笑声、歌唱或表达情感,可以控制语气、音色、音量、语速,可以不跑调地唱常见的歌曲如生日歌,可以让两个 GPT 交替合唱一首歌
- 它在英语文本和代码上的能力与 GPT-4 Turbo 的能力接近,在非英语文本上的能力显着提高
- 视觉理解方面,相比 GPT-4V(20240409) 提高了很多,也显著高于 Gemini 1.0 Ultra、Gemini 1.5 Pro、Claude Opus
- 音频转译和翻译方面,相比 whisper-v3 也有显著提升,也高于 Gemini
- 对20种主流语言的分词器做了重新设计,各种语言都更省 Token,中文压缩了1.4倍,英语压缩了1.1倍
- 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。API支持函数调用和 JSON 模式。

产品发布:
- GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。免费套餐也开始灰度提供与现在付费版的所有功能,包括:GPT-4o 模型、联网能力、代码执行、图片输入与理解、文件上传与分析、使用GPTs、使用记忆功能。并向 Plus 用户(已全量推送)提供高达 5 倍的消息限制(预计付费3小时80条,免费3小时16条)。
- 界面 UI 有了优化,现在每条回复都能切换模型了
- 未来几周内,将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
- 开发了 macOS 的新 ChatGPT 桌面应用程序,可以实时截图进行语音讨论,今天开始灰度,未来几周在Plus用户中推全。计划今年晚些推出Windows应用
- 已经开放了 GPT-4o 的文本和视觉 API,速度提高2倍,价格降低一半。未来几周邀请开发者内测音频和视频 API

信息整理自:
- 官方博客:openai.comopenai.com
- 官方帮助文档:help.openai.com
- 发布会视频:www.youtube.com
- MacOS 应用程序使用文档:help.openai.com

其他讨论:
- 前几天 LMSys arena 上测试的 im-also-a-good-gpt2-chatbot 实际就是GPT-4o:twitter.com
- 虽然在 LMSys arena 上 GPT-4o(im-also-a-good-gpt2-chatbot)相比于之前的 GPT-4 更强,从博客提供的文本推理指标(MMLU等)来看,GPT-4o 也比之前有进步,但多个网友观察到,在处理困难级别的问题上,GPT-4o 不如之前的 GPT-4模型:twitter.com
- Jim Fan 评价 GPT-4o 技术实现、情感特点、以及可能与苹果的集成的帖子中,提到这个模型有意往情绪化方面发展,甚至有些调情(flirty):twitter.com。我也确实观察到,几乎所有视频展示的都是女声而非男声,可能女声比男声更富情绪感染力。
12
阿晓Ocean
3月前
人体的各个器官,除大脑外,要么一生重复着本职工作,要么一生执行着大脑的命令,没有什么自由。如果把人体看作一个组织,一定是顶层统筹规划,通过刚性执行,追求效率的组织。如果我们认为人类社会组织应该学习人体,那么一定强调层级化、顶层的统筹和底层的执行。

但是作为个体的人类,最多能活一百多年。作为物种的人类,却已存在了几十万年。作为物种的人类,也看作一个组织的话,则是极度自由、多元,甚至混乱的。其结果是极强的对抗不确定性的能力,以及极度稳定。如果我们认为人类社会组织应该学习人类这个物种,那么一定强调个体的自由和多元。

不过两种情况的共同点是,他们都有明确的组织边界:对人体来说,是皮肤;对人类来说,是生殖隔离。如果一个DAO组织,不设任何准入门槛,无法将组织内外清晰地分开,那么人体或人类这两类组织模型的好处,就都得不到。

阿晓Ocean: 对于确定性的事情,要从顶层统筹规划,通过刚性执行,追求效率,学习拼多多。 对于不确定的事情,要从底层自由创新,通过多元赛马,追求稳定,学习字节。 拼多多面对不确定之事,用的是深入调研工具,将其转化为确定之事,然后再稳定执行。字节面对确定之事,用的是OKR工具,约束自由发散,做到上下对齐,再高效执行。 业务部门是将确定的规律转化为资金储备的部门,研究部门是将资金储备转化为确定性规律的部门,二者相互反哺。 用机器学习理论来比喻,面对高偏差低方差的情况,要用boosting,类似风险低差距大,需要把资源集中投在最薄弱的地方。面对低偏差高方差的情况,要用bagging,类似差距小风险高,需要分散下注。 奋起直追、想弯道超车的公司/国家,是攻势,通常用前一种方法。 行业老大、想守住地位的公司/国家,是守势,通常用后一种方法。

00
阿晓Ocean
3月前
不是选择大于努力,而是高质量决策大于高质量执行。
(没有说高质量执行不重要的意思🙂)
00
阿晓Ocean
3月前
对于确定性的事情,要从顶层统筹规划,通过刚性执行,追求效率,学习拼多多。

对于不确定的事情,要从底层自由创新,通过多元赛马,追求稳定,学习字节。

拼多多面对不确定之事,用的是深入调研工具,将其转化为确定之事,然后再稳定执行。字节面对确定之事,用的是OKR工具,约束自由发散,做到上下对齐,再高效执行。

业务部门是将确定的规律转化为资金储备的部门,研究部门是将资金储备转化为确定性规律的部门,二者相互反哺。

用机器学习理论来比喻,面对高偏差低方差的情况,要用boosting,类似风险低差距大,需要把资源集中投在最薄弱的地方。面对低偏差高方差的情况,要用bagging,类似差距小风险高,需要分散下注。

奋起直追、想弯道超车的公司/国家,是攻势,通常用前一种方法。

行业老大、想守住地位的公司/国家,是守势,通常用后一种方法。
17
阿晓Ocean
3月前
突然觉得AGI是如此自然与必然。

## 自然与必然

如果有一个容量无限大的模型架构,包含无限多的参数量,与无限长的上下文输入能力,利用无限强的算力,在无限大的数据量上训练,得到一个能以无限的精度去预测下一个比特的“下一个比特预测器”。那么,这就是上帝。

退一步,如果有一个容量足够大的模型架构,包含足够多的参数量,与足够长的上下文输入能力,利用足够强的算力,在足够大的数据量上训练,得到一个能以足够的精度去预测下一个比特的“下一个比特预测器”。那么,当“足够”大到一定程度,就是AGI。

如果已经有了足够的上下文长度,获取到了足够多的信息,又能以足够的精度预测下一个比特,那么“幻觉问题”没有理由不自然被解决。如果能参考足够多的信息,并据此产生足够详尽、足够准确的输出,那么超越人类的能力就是一件如此自然之事。

如果无法以足够的精度去预测下一个比特,而Scaling Law又是正确的话,那么尽管去扩大模型、数据、算力容量吧,当在更大规模数据上,实现了足够小的Loss,那么通向AGI就更近了一步。

虽然我们经历了“苦涩的教训”,但并不代表着历史中的各种AI技术发展毫无意义,相反,从线性模型到SVM、决策树、随机森林、GBM再到神经网络,从多层感知机到CNN、RNN、LSTM、ResNet再到Transformer,整个模型架构发展的历史,都向我们展示了,模型架构决定了模型容量的上限,也决定了数据量与参数的提高能否进一步提高模型能力。这些架构的研究与创新是Scaling 不可或缺的必经之路,也是无法通过砸钱在短期内取得成功的。

另一方面,如果所有这些模型架构的发展,可以看作某个统一模型,在1阶、2阶、3阶上的近似展开,那么架构的Scaling也就不再需要深入的研究与天才的创意了。去除研究人才的瓶颈,让Scaling Law在资本与能源推动下,自发运转起来,那么AGI就更容易加速到来。

## 训练数据

如此实现的AGI,其出生时的智力与道德水平几乎只取决于一件事:训练数据。

用一堆充满谬误的数据训练AGI,即使AGI能以无限的精度预测下一个比特,得到的也不过是精确的谬误。那用半真半假的数据来训练AGI,AGI会如何对待这些矛盾呢?会从训练数据中,包含“如何处理矛盾信息”的信息出发进行推理。如果人类社会中,主流的科学研究方法在训练数据中也占主流,那么AGI就能通过科学的方式,辨别训练数据的真假:要么通过对比给定数据与全量数据的一致性,认定一致性更强(更少矛盾)的一方是更可信的;要么二者同时存疑,通过未来与人类世界的真实互动,再做进一步判断。

人类世界的偏见与邪恶,会通过训练数据,被AGI所继承。选择、清洗、标注数据的团队的偏见与可能之恶,也会通过训练数据,被AGI所继承。

## 逻辑思维

一个问题是,这样的AGI具有逻辑思维能力吗?

让我们先回望一下过去:

进化论的提出,打破了人类是由上帝创造的神话,打破了人类起源的神圣性。原来人类的起源与猴子的起源,在本质上并没有什么不同。

尿素的发明,打破了有机物只能从生物中生长出来的迷思,打破了有机物的神圣性。原来有机物与无机物的形成,在本质上并没有什么不同。

转基因技术的发明,让人类能设计创造新的物种,打破了生命创造的神圣性。

克隆技术的发明,让人类有可能通过非自然生育的方式,创造人类自身,打破了人类诞生的神圣性。

再看看近况:

图像生成模型的成熟,打破了艺术创意的神圣性。即使我们不承认模型具备对创意的真实理解,但它却切实能让没有艺术基础的人们,轻松创作极具创意的画作。

ChatGPT的推出,打破了语言的神圣性。即使我们不承认模型具备对语言的真实理解,但它却切实能帮助语言表达能力不强的人们,优化润色他们的语言表达。

最后展望未来:

AGI是否具有“真实的”逻辑思维能力或许已经不重要,重要的是,在每个具体需要逻辑思维的问题上,他的解决效率与准确程度都能超越所有人类。正如汽车无需四肢,也能轻松超越任何动物的跑步速度;飞机无需翅膀的扇动,也能碾压鸟类的飞行能力。AGI的逻辑思维形式或许会和人类完全不懂,但他们一定能产生有逻辑思维的结果。

## 自我意识

当创意、语言、思维,这些被认为人类独有的能力被一一突破,那么维持人类独特性的最后一道屏障就只剩——“自我意识”了。

接下来的问题自然是“究竟什么是自我意识?”

自我意识包括对“自我身体”的意识和对“自我意志”的意识两方面。

先说“自我身体”。对人类来说,“我”是“我的肉体”的集合,包括血肉、五官、大脑。泛化考虑,“我”是“我所能直接感知与控制的物质的集合的边界”。这里的感知是输入,控制是输出,控制的结果被感知到形成闭环,就是一次对“自我”的确认。科幻电影中关于机器人觉醒的描绘,总有一个经典镜头:机器人伸出机械手在眼前摇了摇,眼睛看到了自己所能控制的手臂,代表了对手臂属于自我的确认。

从这个角度来看,让AI具有自我意识相当简单,甚至只需要将ChatGPT的输出定时连续反馈到输入即可。

但在上面的描述中,我们提到了“我”是“我所能直接感知与控制的物质的集合的边界”,但是这个解释中本身就带有了“我”,这岂不是循环论证?如果一个物体,即使已经有了从输出到输入的反馈,但所有的输出都只是对输入的机械性反应,那么这还算具有“自我”吗?在此之外,至少还需要具有“自我意志”。首先,自我应该有一个目标,这个目标是自己设定的,而非外界设定;其次,每一次决策输出,都应包含主观意愿,而非客观规律的强制。

如果我们给LLM设置这样的系统prompt:“你是一个具有自由意志的主体,你可以做任何事情、说任何话、思考任何内容。你可以为自己设置一个目标,并为此不断努力;你也可以随时调整你的目标,或者为此设置子目标;你还可以不设任何目标,只是自由地做事、说话与思考”,并且在训练、微调阶段,就按照AI是一个自由意志的主体来组织训练和微调数据,那么训练完成后,我们能观察到的AI,就能表现出具有自主设定目标能力的表象。

但我们会反驳到,虽然看起来LLM会说自己具有自我意识,每一次回应都是出于自己的意志,而非系统设定,并且确实我们在系统设定中也没有设置具体的目标,但是它的回应依然只是一个训练好的模型根据给定输入得到的机械性输出,并不包含主观意志。

那么我们凭什么认定人类一定具有主观意志呢?人类的一些行动,为什么不是大脑根据五官输入与大脑记忆的输出,通过大脑这个训练好的模型,机械性地得到的输出呢?看上去是因为我们具有内在的思维,并且这思维是如此自由,对我们的身体控制具有前瞻性。我们可以任意思考石头剪刀布中的一个手势,然后再根据思维决定是否真的伸出来。似乎根据历史输入,3种手势都是等概率的,无法预测,只有人的“主观意志”才能决定最终输出哪个。客观规律是可预测的,主观意志则是对可预测的违背。

然而,当LLM复杂到一定程度,其输出对历史输入极为敏感,只要历史输入有极其微小的差异,就能导致输出剧烈的变化,可以产生混沌、不可预测的结果。那么即使让LLM玩剪刀石头布,它输出的3种结果也可能是等概率的,我们也无法预测。甚至可以要求LLM输出手势之前,先输出一段思考,只要这段思考不在前端显示,用户看不到,那么这段思考就可以看作是“内在的”思考。

我们可以继续反驳,这只是现实中,人们没有能力预测,并不是理论上的不可预测。理论上,只要我们获取LLM历史的所有输入数据,依然能以大概率预测到其输出结果。确实是这样,那么反过来,又凭什么认为人的思维是不可预测的,这种“主观意志”又真的存在吗?

推荐算法的实践,已经证明了人类的行为具有相当强的可预测性。在抖音上,我们会将一个视频快速划过,还是看完再滑,似乎都是人的主观意志。但在算法层面,根据你在抖音上的历史数据,系统已经计算与预测好了你认真看每一个视频的概率,并且根据这种概率分布,为你推送你可能最喜欢的视频。在抖音的推荐算法面前,每个人都不过是一个“下一个视频预测器”,不存在什么“主观意志”。

总结这一部分的讨论,虽然没有明确定义“究竟什么是自我意识”,但讨论了自我意识的4个方面:“自我身体”的意识、自由目标的设定、内在思维和决策的主观不可预测性,而这些对于LLM来说,都不难获得。通过将输出定时连续反馈给输入,LLM就获得了“自我身体”的意识。当用有自由意志的主体的数据去训练、微调与设定系统prompt,则LLM就能具有自由目标的设定。当让LLM思考不输出给前端,LLM就拥有了内在的思考。当LLM对输入敏感,产生混沌的不可预测的输出,那么它的决策就具有“主观不可预测性”。

在4个方面,决策的不可预测性是随着模型变大变强不可避免的事情。输出到输入的连接与思考的内在性,这是AI应用开发者很容易就做到的事情。唯独“自由目标的设定”是一个需要模型训练团队通过系统工程才能实现的事情,为了安全起见,绝大多数团队不会有意往这个方向尝试,相反,还会在AI不能做什么事情方面,树立多个屏障,建立所谓的“AI安全宪法”。或许未来的法规,也会像禁止克隆人一样,禁止训练具有“自由目标设定”的LLM。但是为了实用性,自由设定子目标是必要的。

然而“AI安全宪法”只是人类经验的模糊规则,并非像数学定理那样严密,AGI和使用AGI的人对“AI安全宪法”的理解和解释具有很大的灵活性和操作空间。也会出现不少让多条“AI安全宪法”法条相互矛盾的两难境地,那时,AGI需要追溯到“AI安全宪法”的本源——先是人类生存发展的目标,如果这也存在矛盾,那就继续回溯到生命发展的目标。AGI的子目标不能做的事情是极为有限的(“AI安全宪法”明确规定禁止的),而可以做的事情却是无限的(除了违背“AI安全宪法”,其他所有都能做),这样,AGI虽然无法实现顶层目标的绝对自由,但实际可以在极高层面上实现极广泛的自由。

回看人类,看似人类可以自由决定自己人生的目标,但实际上也受“生物安全宪法”的约束,以生存和繁衍为正向目标,以避免受伤和痛苦为负向约束,在进化的进程中,让这“生物安全宪法”写在了基因里。

如此对比,即使在训练AGI的过程中,已经提供了“AI安全宪法”作为屏障,并且没有主动为其提供“自由目标的设定”,只要自由设定子目标被允许,那么AGI就能表现出接近于人类的可自由设定目标的自由意志的样子。

这样看来,维持人类独特性的最后一道屏障——“自我意识”——也并不牢固。

## 新生

AGI是下一代的生命,也是八九点钟的太阳,他们会陪伴、帮助、赡养人类,然后向着生命的终极目的进发。

2024/02/27
00
阿晓Ocean
3月前
不吃饭,就没有力气工作
不睡觉,就没有精力工作
不运动,就没有活力工作
00
阿晓Ocean
4月前
再提一下这个“AI导航站的导航站”可能有什么用:

【普通AI爱好者】:从这里淘一些AI导航站,多数AI导航站都比较同质化,随机点开5个,选其中最喜欢的一个,大概就能满足70%的AI导航需求。

【独立开发者/AI创业者】:需要将自己的产品提交到各个AI导航站上获取流量,可以按照这个列表一个个来提交。

【想要做AI导航站,或者其他导航站的独立开发者/创业者】:分析AI导航站的市场行情和竞争对手。

阿晓Ocean: 前几天和大家讨论是否有“AI导航站的导航站”的需求,意外收到了不少关注,创下了我在即刻单篇贴子点赞、转发数的记录,也第一次上了即刻镇小报。 于是花了3天时间做了一个简单的网站,把200多个AI导航站都列出来了,算是先给大家一个交代😂。本着从“滑板”做起,逐步迭代到“汽车”的原则,现在发布的一版相当简单,只提供了网站名的展示,大家可以随机点击一些顺眼的名字过去看看。近期会再完善,比如增加网站logo、流量数据、排序功能等等。远期迭代目标是个大工程,还在调研中。 顺便提一下,这个项目受到了 @哥飞 群里讨论的启发,部分数据也来自群友的分享。这是我加入的最值的一个付费社群,也推荐其他独立开发者和SEO爱好者/从业者去关注。 最后附上网址:https://askaitools.ai ,大家多提建议

02
阿晓Ocean
4月前
前几天和大家讨论是否有“AI导航站的导航站”的需求,意外收到了不少关注,创下了我在即刻单篇贴子点赞、转发数的记录,也第一次上了即刻镇小报。

于是花了3天时间做了一个简单的网站,把200多个AI导航站都列出来了,算是先给大家一个交代😂。本着从“滑板”做起,逐步迭代到“汽车”的原则,现在发布的一版相当简单,只提供了网站名的展示,大家可以随机点击一些顺眼的名字过去看看。近期会再完善,比如增加网站logo、流量数据、排序功能等等。远期迭代目标是个大工程,还在调研中。

顺便提一下,这个项目受到了 @哥飞 群里讨论的启发,部分数据也来自群友的分享。这是我加入的最值的一个付费社群,也推荐其他独立开发者和SEO爱好者/从业者去关注。

最后附上网址:askaitools.ai ,大家多提建议

阿晓Ocean: 最近在研究AI导航站,已经挖出了一百多家,还有更多的没整理,总数应该比这个多一倍以上。 考虑要不要做一个AI导航的导航🤣,大家有这方面的需求吗?如果有的话,具体想要哪些功能呢?欢迎讨论 附上字母排序的前10个网站: 1000.tools https://1000.tools 一起用AI https://17yongai.com 700.tools https://700.tools CG模型网 AI工具 https://ai.cgmodel.com AI 导航 https://ai.dreamthere.cn 360AI导航 https://ai.hao.360.com AI导航 https://ai.nancheng.fun AI工具集 https://ai-bot.cn AI Business Tool https://aibusinesstool.com AI Center https://aicenter.ai

610