即刻App年轻人的同好社区
下载
App内打开
罗锴
3k关注7k被关注8夸夸
🍎苹果骨灰粉
🤖AIGC观察者
👨🏻‍🎤科技爱好者
🅥 ㍿养成系MCN联合创始人
大概率是个庸才,懂的太少,说得太多
置顶
罗锴
4年前
发个交友帖!不定时删除
1、MCN联合创始人,从零成功孵化了一批10万到100万量级的小红书、B 站博主。
2、掉进了 AI 兔子洞,一手体验与实践,和一线 AIGC 创作者和国内一线 AI 产品创始人保持密切接触和合作,理解当下 AI 产品的能力与局限。
3、成功孵化海外 AI及科技产品观察账号,内容不仅受到美国用户欢迎,更获得海外科技媒体 The Verge 引述报道。

最近创建了一个个人主页,在那里我分享我的 ComfyUI 工作流和提示、使用 Suno 生成的音乐,以及最重要的,一个我之前分享过的工具集合(虽然仍在不断完善中,我会继续添加更多工具,以便让大家更轻松地探索和使用)。欢迎查阅!

www.luok.ai

这是几篇之前和朋友及媒体的交流,里面会有我们的一些基础运作思路,有兴趣欢迎一看

1、「专注B站和小红书,从零做达人孵化」mp.weixin.qq.com

2、「理论上来讲,每个中国人都可以成为网红 」mp.weixin.qq.com

3、「B站的UP主、直播和竖屏内容 」mp.weixin.qq.com

4、 近期花了大量时间来观察 AI,也欢迎各位来交流 「AI美女在小红书疯狂涨粉,真人网红会失业吗? 」mp.weixin.qq.com

海外媒体:
1、Restofworld 交流小红书话题:restofworld.org

2、The Verge 网站记者采写收录ChatGPT 的讨论内容:www.theverge.com

3、Nerds Chalk网站引用Video Super Resolution (VSR) 方法的内容:nerdschalk.com

朋友圈狂魔,不怕被我刷屏的,欢迎加。
请添加的时候备注自己真实姓名和工作单位,我就通过👌🏻
PS:也请开放你的朋友圈哦👻
4449
罗锴
1天前
面对DEEP Robotics的竞争,Unitree B2-W 也迎来了新突破!在大规模生产启动一周年之际,Unitree B2-W 工业轮进行了升级,大幅提升了运动的灵敏性和在极限环境下的运动能力。
01:54
01
罗锴
1天前
谐音梗这么用的呀🌚
31
罗锴
1天前
wist的内测开始了
00:10
00
罗锴
1天前
完全文生视频的《抢劫》确实质量太高了,Veo 2 的推出是好莱坞电影的生产流程会发生变化的拐点(注意,不是取代,而是流程优化)。每个镜头都是通过 Google Veo 2 通过文生视频完成的,推友jason zada独立完成所有的声音设计、编辑和音乐。
01:56
68
罗锴
2天前
Full moon 是一个充分利用 MLX 框架的模型客户端,加载 Llama 3 超小模型,0.7GB 的模型在 iPhone 本地跑起来吐字飞快,有兴趣可以玩一下🌕

Blog : blog.mainfra.me
App test flight: fullmoon.app
Open source: github.com
06
罗锴
3天前
“去年试用 MidJourney,Suno 的时候,也有种感觉是不是未来人人都会是数字艺术家了?但很快我就发现,我自己其实并没有这方面的“创作冲动”,即使给我看一堆别人创作的东西,很多时候也描述不出来自己想要画什么。最后我的需求基本上收敛到了每次写文章的时候,才会想着去生成一幅封面图。而这个功能或许未来会直接集成在很多自媒体的平台中。”

别被"5分钟写个App"误导:Cursor深度实践

00
罗锴
3天前
一个不重要但是好玩的测试:分别给 OpenAI o1,Claude 3.5 Sonnet,kimichat,doubao 都提供了两只股票的基础说明,让他们出对应的投资策略。国产模型给出的方案惊人的一致,就是你自己选,我给你从稳健到平衡到激进的选择都有…总之,我都说了,责任在你。而 OpenAI Claude,也是惊人的一致,都是给出了几乎相同的投资建议(比例上有所不同,原则上基本一致)🌚
30
罗锴
3天前
人工智能领域的下一次巨大飞跃已经延期并且费用高昂| OpenAI在其新的人工智能项目上遇到了一个又一个问题,该项目代号为Orion

作者: Deepa Seetharaman
2024年12月20 日

OpenAI的新人工智能项目已经延期并且产生了巨额费用。目前尚不清楚——甚至是否能够成功——它何时能运作。世界上可能没有足够的数据使其足够智能。
该项目正式名称为GPT-5,代号Orion,已经进行了超过18个月,旨在成为推动ChatGPT技术的重大进步。据知情人士透露,OpenAI最亲密的合作伙伴和最大投资者微软预计将在2024年中左右看到新模型。
OpenAI至少进行了两次大型训练运行,每次都需要数月的时间处理大量数据,目标是使Orion更智能。接近项目的人士表示,每次运行都出现了新问题,软件未能达到研究人员希望的结果。

他们说,最好的情况下,Orion的表现优于OpenAI目前的服务,但还没有足够的进步来证明维持新模型运行的巨大成本是合理的。根据公开和私人对训练各方面的估计,六个月的训练运行仅计算成本就可能高达五亿美元。
OpenAI及其直言不讳的首席执行官萨姆·奥特曼(Sam Altman)在两年前推出ChatGPT时,在硅谷引起了震动。人工智能承诺将继续展现出戏剧性的改进,并渗透到我们生活的几乎所有方面。分析师预测,未来几年,科技巨头可能在人工智能项目上花费1万亿美元。

这些期望的重担主要落在了OpenAI身上,该公司处于人工智能热潮的中心。
投资者在10月份给予OpenAI的1570亿美元估值在很大程度上是基于奥特曼的预测,即GPT-5将在各种主题和任务中代表着“重大飞跃”。

GPT-5应该能够解锁新的科学发现,并且完成像预订约会或航班这样的日常人类任务。研究人员希望它比当今的人工智能犯更少的错误,或者至少承认怀疑——对于当前的模型来说,这是一个挑战,它们可以带着明显的自信产生错误,被称为幻觉。
运行AI聊天机器人的基础技术被称为大型语言模型,或LLM。消费者、企业和政府已经依赖它们来完成从编写计算机代码到润色营销副本和策划派对等一切事务。OpenAI的模型被称为GPT-4,这是自2015年成立以来公司开发的第四个LLM。
虽然GPT-4表现得像一个聪明的高中生,但最终的GPT-5将在某些任务上有效地拥有博士学位,一位前OpenAI高管表示。今年早些时候,奥特曼在斯坦福大学的一次演讲中告诉学生,OpenAI可以“以高度的科学确定性”说GPT-5将比当前模型聪明得多。

没有确定的标准来决定何时一个模型变得足够聪明,可以被指定为GPT-5。OpenAI可以在数学和编码等领域测试其LLM。公司高管必须根据直觉或像许多技术专家所说的“氛围”来决定模型是否足够聪明,可以被称为GPT-5。
到目前为止,氛围并不对。
OpenAI和微软拒绝对本文发表评论。11月,奥特曼表示,该创业公司不会在2024年发布任何名为GPT-5的产品。

训练日
从2023年3月GPT-4发布的那一刻起,OpenAI一直在研究GPT-5。

长期的人工智能研究人员表示,开发像LLM这样的系统既是艺术也是科学。世界上最受尊敬的人工智能科学家因其直觉而受到赞誉,他们知道如何获得更好的结果。

参数数量*,按GPT世代
GPT-1 1.17亿
GPT-2 15亿
GPT-3 1750亿
GPT-4 1.76万亿†
*设置决定AI如何处理信息并做出决策 †估计
来源:OpenAI(GPT-1、-2、-3);SemiAnalysis(GPT-4)

在训练运行期间测试模型,这是一个持续的时期,模型可以被喂食数万亿的单词片段,称为令牌。一次大型训练运行可能需要在拥有数万个昂贵且令人垂涎的计算机芯片(通常来自Nvidia)的数据中心进行几个月。
在训练运行期间,研究人员会弯腰在电脑前几周甚至几个月,尝试使用一些最昂贵的硬件将世界上的知识输入到AI系统中。

奥特曼表示,GPT-4的训练成本超过1亿美元。未来的人工智能模型预计将超过10亿美元。失败的训练运行就像太空火箭在发射后不久在天空中爆炸一样。
研究人员试图通过在较小规模上进行实验——在真正的事情之前进行试运行——来最小化这种失败的可能性。
从一开始,GPT-5的计划就存在问题。
2023年中,OpenAI开始了一次训练运行,这也作为Orion新设计的测试。但这个过程很缓慢,表明更大的训练运行可能需要非常长的时间,这反过来又会使它变得极其昂贵。被称为Arrakis的项目的结果表明,创建GPT-5不会像希望的那样顺利。

OpenAI研究人员决定进行一些技术调整以加强Orion。他们还得出结论,他们需要更多样化、更高质量的数据。他们觉得公共互联网上没有足够的数据。

通常,人工智能模型吞噬的数据越多,它们的能力就越强。对于LLM来说,这些数据主要来自书籍、学术出版物和其他受人尊敬的来源。这些材料有助于LLM更清晰地表达自己,并处理广泛的任务。
对于之前的模型,OpenAI使用了从互联网上抓取的数据:新闻文章、社交媒体帖子和科学论文。

为了使Orion更智能,OpenAI需要使其更大。这意味着它需要更多的数据,但没有足够的数据。
“它变得非常昂贵,很难找到更多同等高质量的数据,”DatologyAI的首席执行官Ari Morcos说,这是一家构建工具以改善数据选择的初创公司。Morcos正在用更少但更好的数据构建模型,他认为这种方法将使当今的人工智能系统比所有顶级AI公司(如OpenAI)所采用的策略更有能力。
OpenAI的解决方案是从头开始创建数据。
它雇佣人员为Orion编写新的软件代码或解决数学问题以供学习。这些工人中有些是软件工程师和数学家,他们也与Orion分享他们工作的解释。

许多研究人员认为代码,即软件的语言,可以帮助LLM解决它们尚未见过的问题。

让人们解释他们的思维增加了新创建数据的价值。这是LLM吸收的更多语言;它也是模型未来可能解决类似问题的地图。
“我们正在将人类智能从人脑转移到机器大脑,”与OpenAI、Meta等合作的人工智能基础设施公司图灵的首席执行官兼联合创始人Jonathan Siddharth说。

在AI训练中,图灵高管表示,软件工程师可能会被提示编写一个程序,有效地解决一个复杂的逻辑问题。数学家可能需要计算由一百万个篮球建造的金字塔的最大高度。答案——以及更重要的,如何达到它们——随后被纳入AI训练材料。
OpenAI还与理论物理等领域的专家合作,解释他们将如何处理他们领域中最棘手的问题。这也可以有助于使Orion更智能。
这个过程非常缓慢。GPT-4在估计的13万亿个令牌上进行了训练。一千人每天写5000字需要几个月才能产生10亿个令牌。
OpenAI还开始开发所谓的合成数据,或由人工智能创建的数据,以帮助训练Orion。研究显示,人工智能创建数据以供人工智能训练的反馈循环经常会导致故障或产生无意义的答案。

OpenAI的科学家们认为他们可以通过使用另一个名为o1的AI模型生成的数据来避免这些问题,熟悉此事的人士说。
OpenAI已经困难重重的任务由于内部动荡和竞争对手不断试图挖走其顶级研究人员而变得更加复杂,有时甚至向他们提供数百万美元。
去年,奥特曼突然被OpenAI董事会解雇,一些研究人员想知道公司是否会继续。奥特曼很快被重新任命为首席执行官,并开始改革OpenAI的治理结构。
今年,包括联合创始人兼首席科学家Ilya Sutskever和首席技术官Mira Murati在内的二十多位关键高管、研究人员和长期员工离开了OpenAI。上周四,备受尊敬的研究人员Alec Radford在公司工作了大约八年后宣布离职,他曾担任OpenAI几篇科学论文的主要作者。

重启
到2024年初,高管们开始感受到压力。GPT-4已经一岁了,竞争对手开始迎头赶上。Anthropic的新LLM被业界许多人评为比GPT-4更好。几个月后,谷歌推出了今年最病毒式的新AI应用,名为NotebookLM。
据知情人士透露,随着Orion的停滞,OpenAI开始开发其他项目和应用程序。它们包括GPT-4的精简版本和Sora,这是一款可以生产AI生成视频的产品。
这导致了新产品研发团队和Orion研究人员之间对有限计算资源的竞争。
人工智能实验室之间的竞争变得如此激烈,以至于主要科技公司发表的关于最近发现或突破的论文比科学界通常的要少。由于两年前资金涌入市场,科技公司开始将这些研究成果视为需要保护的商业机密。一些研究人员非常重视这一点,他们不会在飞机上、咖啡店或任何可能有人窥视的地方工作,以免有人瞥见他们的工作。
这种保密态度让许多长期的AI研究人员感到沮丧,包括Meta的首席AI科学家Yann LeCun。LeCun表示,来自OpenAI和Anthropic的工作不应再被视为研究,而是“高级产品开发”。
“如果你在商业时钟上做这件事,它就不被称为研究,”LeCun在最近一个AI会议上说,OpenAI在会议上的存在感很小。“如果你秘密地做这件事,它就不被称为研究。”
2024年初,OpenAI准备再次尝试Orion,这次配备了更好的数据。研究人员在年初的几个月里进行了几次小规模的训练运行,以建立信心。
到了5月,OpenAI的研究人员决定他们准备好再次尝试Orion的大规模训练运行,他们预计这将持续到11月。

一旦训练开始,研究人员发现数据中存在问题:它并不像他们想象的那样多样化,这可能会限制Orion学到的东西。
这个问题在小规模努力中并不明显,只有在大规模训练运行已经开始后才变得明显。OpenAI已经花费了太多的时间和金钱,无法重新开始。
相反,研究人员争先恐后地寻找更广泛的数据范围,在训练过程中喂养模型。目前尚不清楚这种策略是否成功。
Orion的问题向OpenAI中的一些人发出了信号,表明更多就是更好的策略,这曾推动了它早期的许多成功,正在失去动力。

OpenAI并不是唯一担心进展遇到障碍的公司。整个行业都在争论人工智能的进步是否开始趋于平稳。
今年辞去OpenAI首席科学家职务的Sutskever最近共同创立了一家名为Safe Superintelligence或SSI的新人工智能公司,他在最近一个AI会议上宣称,最大数据时代已经结束。“数据不再增长,因为我们只有一个互联网,”他告诉一群研究人员、政策专家和科学家。“你甚至可以说数据是AI的化石燃料。”
而那种燃料开始耗尽了。

推理
他们在Orion上的挣扎导致OpenAI研究人员采用了一种新的方法来使LLM更智能:推理。研究人员说,花费很长时间“思考”可以让LLM解决它们尚未训练过的难题。
在幕后,OpenAI的o1对每个问题提供几个回应,并分析它们以找到最好的一个。它可以执行更复杂的任务,比如编写商业计划或创建填字游戏,同时解释其推理——这有助于模型从每个答案中学习一点。
苹果的研究人员最近发布了一篇论文,认为包括o1版本在内的推理模型最有可能模仿它们在训练中看到的数据,而不是真正解决新问题。

苹果的研究人员说,如果问题被更改为包含不相关的细节——比如调整一个关于猕猴桃的数学问题,指出其中一些水果比其他水果小——他们会找到“灾难性的性能下降”。
9月,OpenAI推出了其o1推理模型的预览,并在本月早些时候发布了o1的完整版本。
所有这些额外的脑力都是昂贵的。OpenAI现在支付生成多个答案而不是只有一个查询的费用。
在最近的一次TED演讲中,OpenAI的一位高级研究科学家强调了推理的优势。

“结果表明,在一手扑克中让机器人思考20秒,与将模型扩大100,000倍并训练100,000倍的时间一样,都能提高性能,”OpenAI科学家Noam Brown说。
一个更高级、更高效的推理模型可以构成Orion的基础。OpenAI的研究人员正在追求这种方法,并希望将其与旧的更多数据的方法结合起来,其中一些数据可能来自OpenAI的其他AI模型。然后,OpenAI可以用人为生成的材料来完善结果。
周五,奥特曼宣布计划推出一个比公司以往发布的任何模型都更智能的新型推理模型。他没有提到何时,或者是否会有一个值得被称为GPT-5的模型出现。

www.wsj.com
01
罗锴
4天前
tldraw 推出了一个实验功能computer,tldraw通过Gemini API将对话AI的力量带入视觉编程,允许用户使用自然语言生成内容和处理信息。从想法生成到出图、出视频、出语音甚至是网站。computer.tldraw.com

tldraw团队正在使用Gemini 1.5 Flash版本和正在原型测试中的Gemini 2.0 Flash版本来构建未来的迭代。tldraw的computer基于一系列相互连接的“组件”,这些组件代表画布上的元素(文本框、图像、音频剪辑等)。这些组件通过箭头连接,可视化数据和转换的流动。每个组件都有关联的“程序”——基于连接组件的输入执行的一组指令。一个组件可以从任意数量的其他组件接收数据,并将输出数据传递给许多其他组件——包括它自己!这种基于组件的架构,结合Gemini 2.0 Flash的强大和速度,允许一个快速灵活的系统能够处理多样化的任务。ai.google.dev
00:34
04