即刻App年轻人的同好社区
下载
App内打开
Max_means_best
650关注664被关注0夸夸
海本辍学折腾ing
Ex 极客公园、奇绩创坛
擅长运营、增长📈
更想要给所有天才idea一个生长的土壤~
置顶
Max_means_best
5月前
“我喜欢看到欣欣向荣的世界”
​国内已经有很多创业者社群了,但 builder的社群比较少
有时候,不考虑盈利,纯粹做一个喜欢的事情也是挺不错的

————Hackathon Weekly 北京01场纪念
95
Max_means_best
1天前
很多研究领域进展缓慢
也许是因为人脑没法像o3 high一样一口气烧 9.5b tokens
是不是我们把代码写死了只能low模式🤔
那如果切换到high呢?
00
Max_means_best
1天前
详解o3: 无限接近AGI,但没人用得起

OpenAI今天正式发布了其最新的模型——大杯o3,以及小杯o3 mini

具体成绩如下⬇️
1️⃣ ARC-AGI测试中(图 2)
o3 在low版本下的得分是上一代o1的三倍,high版本下的o3拿到了 87.5% 的得分 ,作为对比,普通人的的分数是 70-80%🥲(这个low和high可以理解为高性能和低性能,对应是high版本就是低效率模式,low版本则是高效率模式)
2️⃣ EpochAI的Frontier Math测试中(图 3)
o3解决了25.2%的问题,过去任何模型的解决率都未超过2% 😮‍💨
3️⃣ 在编程Codeforces测试中(图 3)
o3获得了惊人的 2727分,甚至超越了OpenAI首席科学家的2665分 (这个成绩在人类里排第 150 名)
5️⃣ 在AIME 2024 测试中(图 4)
o3得分接近了满分,为96.7%,之前o1 只有 83%
6️⃣ 在博士难度的GPQA Diamond测试中(图 5)
o3的得分为87.7%,得分远超人类专家水平

是不是很厉害,觉得马上就能完全代替人?
很遗憾,o3 有个致命问题:成本💰
虽然OpenAI很鸡贼的故意在跑分图上没有标明成本
但他们的合作方ARC给捅出来了(人家原来谷歌的,肯定搞你openAI啊)

他的blog里面有两张截图(图 5、6)
我们可以发现,o3 low版本一个任务要花费超过十美元
o3high版本,解决一个任务要超过一千美元的成本
搞笑的是🤣
OpenAI要求对o3 低效率(o3high)成本保密
但ARC说了个倍数,低效率的成本是高效率的 172 倍,那就意味着一个任务要 20*172=3440 美元💵

一个任务 3440 美元!?谁疯了用这么贵的东西Σ(゚д゚;)

目前o3 模型处于“预览”状态,仅向通过链接申请的安全人员开放。 o3 mini 将支持 o1 支持的所有功能,计划1月底上线。

PS:新模型叫o3而不是o2,是因为o2存在版权问题,只能叫o3了
00
Max_means_best
2天前
做一些逻辑小,复杂度低的事情,做在自己能力,AI能力边界以内的事情
像基于SEO的工具站,像一个自媒体,像视频搬运(虽然我讨厌这东西,但他是条路)
但无论如何仍然是要根据你的能力去做效益曲线最大的事情,用投产比去衡量你的一切行动。把自己的时薪算出来作为一个基准线,如果太高就对半一下再对半一下,总之你需要一个基准线。
把你打工学到的投产比内卷大法也用到这上面来,尽量避免被我喜欢、我感兴趣所陶醉迷惑,价值产出是最好的衡量。——在打工的时候难道不熟悉这种方法吗?为什么回到自己的身上就走偏了,想想被多少次问过“这个投入的产出价值在哪里?”

马丁的面包屑: 第一个项目从11月16日到现在,告一段落,元旦前后应该能上线了 精力转到下个项目,同时准备重启写作 这个月我看到一些朋友在试图通过AI编程让自己成为超级个体 我的看法是这样的: 1. 分工是最科学的方法,在真正AGI到来前都是如此 如果一个项目的总工时是1000小时,其中编程500,产品200,设计100,运营200 你的编程是1分,AI加持后是2分 产品8分 设计3分 运营2分 你最后的总工时一定不是1000,例如仅仅编程部分就变成500*效率系数10=5000 更可怕的情况不是效率低,而是根本走不过去 2. 不要拘泥独立开发,solo这个字眼 首先任何独立开发/solo本质都是一门小的创业。就用创业的视角去评估,衡量他就好了,没必要为“一人公司”这种情怀所迷惑。 拿你的履历背书,你的想法,你的口才,你的人格魅力去找到合适的人组成团队 专业的人做专业的事情,可能把1000小时变成500小时 更大收获甚至不仅是工时,而是一些市场判断的枪毙减少无效投入,一些杠杆支点的获取导致流量爆发,或者是产品打磨从6分跃升到10分 3. 如果你找不到人 你没有履历背书,别人不相信你?你就应该从今天在工作中,在社媒上,在实践上去积攒 你的想法不吸引人,那么你就应该相信这个想法真的不吸引人,99%的概率是这样的,另外1%是你是时代超人,不幸遇到我们这些愚人 请相信我,如果你找不到人,本身就证明你自己在某些点上还不足。这件事本身就应该对你有所启发,有所推动。 4. 如果一定要solo呢? 做一些逻辑小,复杂度低的事情,做在自己能力,AI能力边界以内的事情 像基于SEO的工具站,像一个自媒体,像视频搬运(虽然我讨厌这东西,但他是条路) 但无论如何仍然是要根据你的能力去做效益曲线最大的事情,用投产比去衡量你的一切行动。把自己的时薪算出来作为一个基准线,如果太高就对半一下再对半一下,总之你需要一个基准线。 把你打工学到的投产比内卷大法也用到这上面来,尽量避免被我喜欢、我感兴趣所陶醉迷惑,价值产出是最好的衡量。——在打工的时候难道不熟悉这种方法吗?为什么回到自己的身上就走偏了,想想被多少次问过“这个投入的产出价值在哪里?” 6. 最后仍然建议学一学AI编程 但这个建议不是for“人人都是程序员”,“我有个点子,我现在也有一个程序员了”这种方向。 而是AI编程本身就是能很大程度去提升你在工作中各方面的效率,这个是在他目前的辐射范围内的。

00
Max_means_best
2天前
其实超期待今晚的天堂之战(✧∀✧) //@BitBrain: 嗯,主动环境感知解决的是动态的多模态输入的问题,RL和COT是解决的推理的问题,两者对于在行业中落地都蛮关键的

Max_means_best: 其实昨天的主动环境感知也很重要

00
Max_means_best
2天前
21
Max_means_best
2天前
是的,不是单纯技术问题 //@BitBrain: 是否需要想办法发动真正的行业专家:1)找到行业内有价值的case和答案;2)对于少量过程性推理数据进行详细的撰写;3)作为合成数据的输入;4)专家给出rewardmodel的评判标准 。这似乎是一个很大的宣传问题和组织问题?

Max_means_best: Ilya确认:Pre-Train已经穷途末路 Ilya Sutskever,作为OpenAI的联合创始人和前首席科学家,他在人工智能领域的地位举足轻重,在今日举行的NeurIPS2024 这一顶级人工智能会议上,Ilya的演讲引发了极大的关注。(看有的号说是昨天的会,但其实是北京时间的今早上)•ᴗ•💧 Ilya在演讲中提出了一个颇具争议的观点:目前AI领域的预训练方法可能已经触碰到了天花板༼⁰o⁰;༽ 预训练,作为大型语言模型(LLM)的核心训练手段,一直以来都是推动AI模型能力进步的关键。但Ilya认为,如果我们继续沿用现有的预训练路径,AI的智能可能难以实现进一步的飞跃。 Ilya的这一结论基于一个至关重要的论点:训练数据的短缺 他指出,目前的情况是⬇️ 1️⃣ 计算能力的增长似乎没有止境: 随着技术的不断进步,我们的硬件设备越来越强大,算法越来越高效,集群的规模也在不断扩大,这些都为AI模型的更大规模训练提供了可能。 2️⃣ 数据瓶颈却日益凸显: 尽管我们拥有一个庞大的互联网,但可用于训练AI的数据却是有限的。 互联网上的信息虽然多,但重复、低质量乃至错误的内容比比皆是(特别是中文互联网😂) 在这样的条件下,如何筛选出有价值的数据,以及如何突破数据瓶颈,成为了亟待解决的问题。 但其实我们大概在 3 月份就已经发现了这个问题,当时还是GPT-4T,但是已经用尽了全部的互联网数据(问题是我们人类只有一个互联网💧) 我们那时候就认为下一个方向是Post-Train,果然后面的发展也和我们看法一致😋 那是不是没有必要做Pre-Train了呢? 其实不然,很多朋友都有误解,但其实⬇️ 1. 只有当您拥有足够的算力时,Pre-Train才会失效。 (OpenAI/Anthropic 已经用尽了数据;但如果您没有,您的模型就会落后。) 2. Post-Train费用将同样昂贵(甚至更高!)。而且Post-Train需要的过程性数据更难以获得。 PS:更好的垂直数据和合成数据可能是Pre-Train未来突破的方向,但怎么获得呢🤔🤔🤔

00
Max_means_best
2天前
🫡
00