即刻App年轻人的同好社区
下载
App内打开
Million_Y
319关注304被关注0夸夸
与自己和解 与世界和解
而后高举长枪 遥指风车
枪尖含着月光 无声呼啸
置顶
Million_Y
12月前
2025 Q1 展望
- Transformer 架构的 AI 似乎已经达到瓶颈,OpenAI 开始引领 Agent / MutliAgent 路线,但这只仅仅工程上的妥协,有价值,但不多,更重要的事情在于 AI 基础能力的提升。量化技术能够加速,但是肯定对 AI 的生成质量有所损害,dLLM 似乎是一个可能路径,但是我认为没有免费的午餐,可能还存在我尚未发现的缺陷。但是 dLLM 的生成速度非常有价值,极有可能会成为 AI 族群的重要组成部分。
- 多模态 AI 还在持续迭代,ChatGPT 4o 的出圈即为一例,2025 Q1 结束之时,多模态 AI 在图片理解和生成上有了足够大的进步,进一步应该是音频理解和生成,然后是视频理解和生成。视频理解和生成部分限于算力问题可能不太容易,但是对于 AI 理解现实世界肯定是跨越式的进步。且看今年年底之前能否完成这一步跨越。
- 到2026年,应该进入具身智能的时代,将触觉(也许对物理世界的具身体验更合适)融合入视觉和听觉是另一个巨大的跨越。另一个容易被忽略的是嗅觉和味觉,这是对分子级别的感知。至此 AI 应能从硬件上全面感知人之所感。
- 另一个让人难以忍受的瓶颈是 AI 的在线学习能力,如果 AI 只能使用外挂知识库的方式来解决问题,那叫开卷考试,不叫真正的学习。最近看到的一些论文似乎想要解决这个问题。窃以为人类大脑的[三重脑假说](zh.wikipedia.org)是有借鉴意义的,关键在于如何将旧脑和新脑分开训练,旧脑负责完成对这个世界的基础学习,新脑则负责在线学习,推理时结合新旧脑一起推理,完成真正的在线学习。这部分期待明年有新的突破。
45
Million_Y
2天前
樱花跑道太美了
00
Million_Y
2天前
我修了个 bug,99 档的干掉了 4%的用量。。。也就是能修 25 bug,一个 bug 4 块钱,就算最高档位的,一个月满打满算也就干 300 个任务吧顶天了。个人用的话最多一周,团队 5-7 人一天就干没了

歸藏: 小米也推出了 MIMO 的 Code Plan 最便宜的 39 每月,最贵套餐 659 每月 统一 Credit 点数体系,没有 5 小时限额这种设置 CodePilot 0.45.1 版本将会支持

00
Million_Y
2天前
天不生阑夕,黄道万古如长夜

阑夕ོ: 麻豆传媒官宣倒闭之后,老司机群里有很多爆料和讨论,我稍微总结一下: - 黄赌毒这种暴利行业,如果不是被叔叔按了,很难真的因为亏本而搞砸,但黄相对来说确实是脆断性偏高的一个,因为供给没有另外两个那么受限,上古时代姑且不论,时至今日绝对不再算是稀缺商品了; - 麻豆的艰难早有迹象,从苏畅沈芯语夏晴子吴梦梦艾秋苏语棠莉娜这些我不知道的名字纷纷出走就能发现,长江后浪推前浪,当年麻豆传媒是怎么吃SWAG份额,后来就是怎么被大象传媒这些新生代挖墙脚的; - 而且从报酬来说,不只是麻豆,所有华语厂牌给的都确实不多,纯靠片酬可能连一万人民币都不到,不少女演员打出名气之后自己去做社群开OF,大概率能赚更多,而且还自由,毕竟这行当又不推崇事业心,甚至还有福利姬去拍片是为了给自己线下接单提价; - 麻豆的商业模式,大致上分为三路,一路是标准的用户付费,包括会员订阅和单片点播,一路是最让人吐槽的博彩及灰产广告植入,一路是版权分销,市面上那么多镜像站就是这么来的; - 这个结构看起来很多元,但其实一直都是跛腿走路,支撑制作成本的支柱来源,始终都是广告植入,在全网随便就能搜到片源的环境下,华语观众看片基本上是不会付钱的,甚至麻豆官号在Threads抽免费会员都没几个人参加,特别凄凉; - 说白了,你做不到Netflix那样的流媒体粘性,大家消费内容是「片站分离」的,都懒得去麻豆的平台观看,这也是麻豆官宣公告里把盗版作为两大影响之一的原因,用户付费不足,又意味着分销模式也行不太通,直营都卖不掉货,凭什么代理商就能卖动; - 所以实际上,麻豆非常依赖那些网赌和炒币广告的赞助,但是一个原意并不是针对它、却在客观层面断绝了金主资源的环境巨变,就这么无意的摧毁了麻豆,那就是这一两年来整个东南亚电诈园区的被清扫,以及作为洗钱中转节点的太子集团覆灭,直接掐断了上游资金的水源; - 麻豆把一个D2C的生意干成了B2C,从一开始可能就错了,不知道有多少人对那些强行摆在镜头前的广告文案感到膈应,大哥,用户看片是为了撸出来,而那些广告甚至口播却又无时不刻的在影响他们的专注,这太矛盾了,我慕名看过一部女演员在高潮时喊广告词的片子,堪称阳痿诱发器; - 当然麻豆的整活和网感一直是优点,就它蹭热点蹭得最有创意,执行力也不错,但还是像上面说的,流量决定拉新,质量决定留存,成片的粗制滥造,让麻豆注定成为不了华语厂牌里的SOD,不断重复「开局好牌打得稀烂」的循环; - 预算越来越低,水片越来越多,演员越来越差,对内容产业有所了解的应该都会很熟悉这种「死亡螺旋」的趋势,甚至连演员身上的纹身越来越多都是一个非常明显的信号,全是精神小妹在卷工时,有人问过麻豆为什么不能找些没纹身的演员,麻豆官号抖机灵的回复「那也得有」,是真没有还是找不到,我是存疑的; - 目前来看,日本同行的工业化,从制片到发行的完整闭环,是根本没办法复制的,那必须依托一个高度保守化和静态化的社会体系,其他市场,包括欧美,都在选择一条更加个人化、或者说是MCN化的商业路线,片商的利润和权力被分走了太多,利润大头集中在发行端和生产者两个位置,只能说麻豆有些生不逢时。

00
Million_Y
3天前
在复杂信息图的生成上
- nano-banana-2.0 还是断档领先
- wan2.7-image-pro qwen-image-2.0-pro 还不错
- seedream 5.0 倒是出乎意料的惊喜

1:wan2.7-image-pro
2:qwen-image-2.0-pro
3:seedream-5.0
4:nano-banana-2.0-2k
20
Million_Y
4天前
00
Million_Y
5天前
两篇适合对照着读
00
Million_Y
5天前
中美小学生夏令营2.0版

晨然_: 中国AI最大的问题不是技术,是我们从小被训练成了"解题机器" 最近看到一个外国投资人的文章,他来中国考察了两周AI创业,走之前说了一句话,让我想了很久。 "中国的教育体系培养出了卓越,但没有留下足够的空间让人们偏离轨道。" 这个投资人叫José Maria Macedo,来中国之前,他是坚定的中国AI看多派。 理由也很硬:中国顶尖人才估值远低于美国同级别,后期市场明显错配,智谱和Minimax在二级市场的表现让全球投资人眼红。 但两周之后,他对一件事产生了巨大的困惑。 他见了一大堆中国AI创始人,简历一个比一个漂亮。 顶尖大学毕业,字节跳动、大厂出身,发过Nature论文,拥有多项专利。 他说,这些成就在西方只有最顶尖的技术人才才具备,但在中国,这只是基本门槛。 而且他们比他见过的几乎所有人都更努力。各种时间开会,包括周末,跨城市。有一个创始人甚至在老婆生孩子当天还来见面。 然后他话锋一转。 "独立思考、叛逆精神、从零到一的原创视野,这些却很难找到。" 创始人们的背景高度相似,pitch更倾向于规避风险。想法往往是已有事物的出色V2版,而不是真正原创的赌注。 说白了就是,大家都很能"解题",但没几个人在"出题"。 他还发现,中国的VC也在强化这种模式。 很多基金的投资逻辑就是投字节、大疆出来的人。看学历,看履历,看pedigree。 而不是看这个人有没有那种"别人都觉得你疯了但你自己觉得这事必须做"的偏执。 但讽刺的是,他列了中国历史上最牛的几个创始人。 马云,两次高考落榜的英语老师。任正非,43岁从军队出来才创业。刘强东,从市场摊位卖货起步。王兴,博士辍学连续创业。DeepSeek的梁文锋,从来没在任何公司打过工。 全是异类。 全是现在的体系会直接pass掉的人。 他们没有完美的简历,没有大厂光环。但他们有一个共同点:他们不是在解别人定义的题,他们在自己定义问题。 看到这里的时候,我想到了自己。 我今年26岁,在华为待了9个月就跑出来了,去了一家创业公司。 当时很多人觉得我疯了。华为多好啊,稳定,体面,年薪也不低。你才刚进去,为什么要走? 说实话,我也说不清楚一个具体的理由。 只是每天上班的时候,总觉得自己在一条别人画好的线上走。往左走三步,往右走三步,都有人告诉你对不对。 不是华为不好,而是那套系统太完善了。完善到你不需要思考"该不该做这件事",你只需要思考"怎么做好这件事"。 但当你习惯了只想"怎么做",你就慢慢丧失了问"为什么做"的能力。 我觉得我们这代年轻人的焦虑,本质上就是这个问题。 不是找不到工作,不是买不起房,不是赚不到钱。 而是我们一直在解别人出的题。 从小到大,我们接受的训练就是:给你一道题,你把它做对。做得越快越好,做得越多越好。 高考是这样,考研是这样,进了大厂也是这样。 别人说AI火了,你就去学AI。别人说考公稳定,你就去考公。 但从来没有人问过:这道题本身值不值得做?有没有更好的问题可以问? 我离开华为的时候,也没想清楚要做什么。只是隐约觉得,比起在一条确定的路上走得又快又稳,我更想去找一条自己的路。 哪怕这条路一开始看起来很蠢。 文章最后,这个投资人说了一句话我特别认同: "寻找那些不符合本地VC生态所优化的学历模板的创始人,正是我们目前专注的方向。" 他在找异类。 而我觉得,我们每个人都应该允许自己成为异类。 不是说非要辞职创业,也不是说大厂就是错的。 而是在做每一个选择之前,先问自己一个问题: 这个决定,是我自己想做的,还是因为别人都在做? 学会定义问题,比学会解题重要一万倍。 因为题可以越做越熟练,但如果题本身就是错的,你做得再好也没有意义。

00
Million_Y
6天前
和春天有个约会
00
Million_Y
7天前
“人类阅读 1000 字的文档可能只需要几秒”这AI幻觉可太严重了😂

木遥: 刚才跟AI进行了一个很有意思的对话。 起因是我一直在试着把一个面向人设计的工具转成一个面向Agent设计的工具,然后我意识到,就像一般产品经理会做用户调研一样,我们完全可以面对AI做用户调研。 于是我问了 AI 这样一个问题: 你自己就是AI,而且是一个经常需要调用工具的AI。你期待一个面向你的xx工具应该是怎样的? AI 的回答: 确实每天都在调用工具,而且我非常清楚自己的痛点在哪。 我最大的瓶颈:round-trip 成本 每次工具调用对我来说都很贵——不是算力贵,而是延迟和 context 消耗。我调一次工具,要等结果回来,要把结果读进上下文,这占用我有限的注意力。所以: 最理想的 API 是:一次调用能做尽量多的事。一个 round-trip 解决问题。 这就是 AI-native 和 human-native 最根本的区别——人类需要看到每一步、理解每一步;我不需要,我需要高效搜索。 我第二大的痛点:失败时的信息黑洞 当工具返回 "error: tactic failed" 时,我只能盲猜下一步。这是我浪费 token 最多的场景。我需要的是similar_successful_patterns——告诉我「别人在类似目标上成功用了什么」。这对人类不重要(人类靠直觉),但对我极其重要,因为我的搜索是基于模式匹配的。 第三:checkpoint 必须极其廉价 我的工作模式本质上是 tree search——试一条路,不行就回溯。如果 checkpoint/restore 有任何显著开销,我的搜索效率就会大打折扣。理想状态: checkpoint 返回一个 ID,允许随时 restore。 第四:我不需要的东西 这点同样重要。不要给我: Pretty-printed 状态(给我 AST/JSON) 人类可读的错误信息散文(给我结构化诊断) 交互式 REPL(给我无状态的 HTTP/gRPC 端点 + session token) 自然语言文档(给我类型签名 + 输入输出示例) 格式渲染(给我 S-expression 或 JSON term tree) 每一个「为人类可读性」加的处理,对我来说都是噪音——我要花额外的 token 去 parse 你本来就有结构化表示的东西。 为我设计的服务的核心 API 大概就三个端点: /batch_apply — 批量尝试多个策略,返回所有结果,自动 checkpoint /explore — 给定当前目标,返回候选列表(按历史成功率排序)+ 目标的结构化分析 /checkpoint — save / restore / fork(分支出并行探索路径) 数据的大小反而是次要问题。如果这三个端点做得好,我可以在一个基础引擎上也非常高效地工作。如果这三个端点做得差,就算你有海量独家数据,我也会在无意义的 round-trip 中浪费大量算力。 ======== 然后我把上面的 AI(甲)的回答发给了另外两个 AI(乙和丙),它们纷纷表示:说的太他妈对了真的嘴替。 但各自又有补充。 AI 乙: 那个 AI 提到的 round-trip 成本本质上是 Context 熵增问题。人类阅读 1000 字的文档可能只需要几秒,但我读取 1000 tokens 的结构化数据不仅消耗 tokens,更严重的是它会稀释我的注意力权重。 报错即「路标」,而非「结局」 现在的工具报错(如 400 Bad Request)对人类来说是终点,需要人类停下来思考。但对于 Agent,报错应该是探索算法的一个分支。 逻辑偏误修正 那个 AI 提到的 similar_successful_patterns 极其重要。由于我的推理本质上是概率性的,告诉我「怎么做可能是对的」远比告诉我「你现在错了」能更快地让我回归正确的收敛路径。这其实就是 In-context Learning 的即时补丁。 关于 Checkpoint 的论据非常惊艳。 目前的工具链大多假设 Agent 是线性的(Step 1 -> Step 2)。但实际上,复杂的任务需要我们进行类似蒙特卡洛树搜索的操作。 我完全同意它对 Pretty-print 的厌恶 Markdown 表格对人类是视觉盛宴,对我来说是 token 屠杀。 我更希望工具能支持类似 JSON Streaming 或者 Protobuf 的流式解析。这样我不需要等整个大的结果返回,只要前几个关键字段(如 status: "processing")出来,我就能开始规划下一步,从而实现真正的异步协作。 补充一个它没提到的痛点:确定性约束。面向 Agent 的工具应该允许我传递一个 seed 或 consistency_level。我最怕的是:同一个 API 调用,在逻辑没变的情况下,因为后端的微小抖动返回了不同格式的数据。这会导致我的 pattern matching 瞬间失效,引发一连串的幻觉。 AI 丙: 大部分同意。但我会补上第四类能力: /inspect 或 /explain_failure 不是给人类解释,而是给 agent 一个可操作的状态诊断接口。因为 agent 很多时候不是缺 apply,不是缺 explore,而是缺局部判别:当前卡住的根因到底是什么?哪个约束最可能该先处理?当前目标和历史成功轨迹的差异在哪?如果没有这个层,explore 很容易退化成盲搜。 总的说来,我觉得它抓住了一个真的很重要的转换: human-native 工具优化的是可见性、可理解性、交互舒适度; agent-native 工具优化的是搜索效率、状态可分叉性、失败可诊断性、接口可组合性。 ======== 不得不说我从这个对话里学到了非常多东西。

00
Million_Y
9天前