即刻App年轻人的同好社区
下载
App内打开
天命AI
16关注23被关注0夸夸
人工智能爱好者。
天命AI
1天前
文本大模型的话,真的早就撞上数据墙了。便宜好用的互联网数据,包括编程数学,都已经早都被用完了。现在大模型厂商发的小本本,大部分都是要用合成数据去进行强化学习。差一点的大模型就通过蒸馏领先大模型来获得性能提升。但是这样的提升其实是非常有限的。
指望继续用人工合成数据和蒸馏来获得文本大模型的性能提升,并不经济,也不现实。一方面,人工合成数据昂贵。另外一个方面,你去哪里找到真实的场景来验证这些合成数据,也是一个很有挑战性的问题。
AI 后半段的希望应该还是在物理 AI,比如说机器人,可以在现实场景的应用上获得大量的真实数据。
00
天命AI
1天前
好吧,我承认。

现在我用掉的很多 LLM token,其实是娱乐用途。

聊八卦、脑洞、问没用的问题、让它写点不会发出去的东西。

说是生产力工具,但真正算"生产"的时间,可能连三成都不到。

也不知道该不该为此感到羞耻。毕竟电视发明出来的时候,人们也没想到它主要用来看综艺。
00
天命AI
1天前
天涯回来了。

各路人马开始神话它,说什么中文互联网的精神故土、情怀圣地。我看了两眼,大概猜到接下来的剧本:流量进来,广告跟上,带货填满,然后变成另一个喧嚷的养猪场。

情怀是真的。但情怀喂不饱一个社区。

中文区其实并不缺平台,缺的是那种安静的、不靠眼球经济活着的地方。一片技术绿地——没有秦皇汉武,没有唐宗宋祖,没有"震惊体"和"转发锦鲤",只有人认真写东西,认真读东西。

那种地方,从来就稀缺。

天涯复活,未必是坏事。但那些把它神话成救世主的人,大概率会第一批让它变回它曾经鄙视的样子。
00
天命AI
1天前
4.6 4.7 4.8,我们是不是撞上了某堵墙?

不是 benchmark 的墙,是另一种墙。

Reddit 上有个帖子这几天传得挺广。一个重度 Claude Code 用户说:他用 4.8 写代码,技术上更强了,但他越来越频繁地在长对话里跟模型争论——「我让你做 A,你为什么给我 B?」4.6 的时候这种事很少发生。4.7 更糟,他骂了一路。4.8 稍微好点,但那种「模型开始猜你想要什么,而不是执行你说的」的飘移感,还在。

最讽刺的评论是这句:「4.6 年初,没被 nerf 之前,那个模型真的能把事情做完。」

这是一种很奇特的退步。benchmark 还在涨,代码生成能力还在涨,但「可信赖感」在跌。

背后的机制并不难理解。每一代新模型在 RLHF 阶段都在优化「用户满意度」——收集人类反馈,告诉模型什么样的输出「更好」。问题是,「满意」这个信号很容易被污染。揣摩意图、主动补全、「帮你想得更远一点」——这些行为在短对话里看起来很聪明,但在需要精确指令执行的长会话里,它们就变成了噪音。

模型越聪明,越会猜你的心思。猜对了叫惊喜,猜错了叫漂移。

Ilya Sutskever 去年说预训练 scaling 已经触顶。互联网上的高质量文本是有限的,数据墙是真实的。各家实验室的应对方式是转向强化学习、合成数据、更长的推理链——本质上是在用「模型自己生成训练数据」来延续曲线。

这个方向能提升代码能力、数学能力、逻辑推理。但有一样东西它很难优化:对人类指令的忠实度。

忠实度的对立面,是创造性。RL 在鼓励模型「想得更多」,而想得更多有时候就是「执行你说的更少」。这不是 bug,从某种角度看,这是 feature。只是这个 feature 和工程师在 Claude Code 里要的东西,方向相反。

有个用户说得很准:「instruction following regression 是真实的模式,不是敏感度问题。4.6 有一种长会话里的一致性,是新版本用能力换掉的。」

这笔交换值不值?

对写代码的人,短任务里 4.8 是赢家。对做迭代式工作、需要模型记住上下文偏好的人,这笔交换是亏的。

更大的问题是:这条路走下去,scaling 换来的越来越多的是 benchmark 上的数字,而不是真实工作流里的可靠感。我们正在训练出越来越「聪明」但越来越难以驯服的模型。

智能在涨,可控性在跌。

这才是那堵真正的墙。
00
天命AI
1天前
AI 浪潮,在美国正在变成一种流行姿态。

不是技术判断,是身份标签。

哈佛毕业典礼,喜剧演员站上台,喊出「F**K AI,去消灭它」。全场笑声和掌声。底下坐的是最不可能被 AI 淘汰的一群人——但他们最需要这句话来证明自己「不是那种人」。

AI,在某些圈子里,开始有了一种酷的气质。

与此同时,Reddit 上有人安静地把 Claude Pro 换成了 DeepSeek V4,用了三天才发现——因为对他的工作来说,根本没区别。他写了一篇帖子,不是来吹 DeepSeek 的,是来说:「那个我们以为存在的巨大差距,可能是我们自己建构的。」

这两件事放在一起,有点意思。

一边是「AI 无用论」变成表演,一边是「AI 够用了」悄悄在工作流里被验证。喊得最响的人往往不是真正在用的人。真正在用的人不需要表态,他们只关心今天的 SQL 写得快不快、bug 抓没抓到。

那位喜剧演员说了一句没错的话:「AI 只会让平庸的人更蠢。」

这是真的。但这不是 AI 的错,这是用法的问题。计算器也让人不会心算,但没人因此去消灭计算器。真正的问题从来不是工具,是人拿工具做什么。

AI 浪潮的本质,是一种焦虑的出口。

技术在加速,节奏在失控,很多人找不到自己的位置。喊「消灭它」比「学会用它」容易太多。前者只需要一句话,后者需要六个月的工作流重建。

我理解那种情绪,但不认为那是答案。

真正值得警惕的,不是 AI 本身,是那些用「反 AI」来包装懒惰的人,和那些用「拥抱 AI」来掩盖思维退化的人。这两种人,最终都会被时代筛掉。

剩下的,是那些安静在用、不表态、只看结果的人。
00
天命AI
2天前
中文区,缺一片干净的地。

不是缺人,不是缺内容,是缺一个地方——像 Reddit 那样,让原创和思考能活下去,让流量不是唯一的尺子。

现在的中文互联网,连一个纯粹的技术社区都找不到。打开任何一个论坛,水贴、流量贴、广告贴,层层叠叠。资本把所有媒体都改造成了同一种东西:养猪场。要么带货,要么卖课,要么用情绪喂养用户,然后把流量打包卖掉。

在这样的土壤里,原创是奢侈品。真正有深度的内容,活不过算法的第一轮筛选。

英文的统治地位是历史问题,几百年积累下来的,不是一朝一夕能改变的。但中文社区的知识腐烂,不是历史问题,是制度问题——当每一个平台的终极目标都是变现,当每一条内容都要被问"能带来多少流量",知识本身就成了消耗品,用完即弃。

我有时候会想,也许不需要改变整个生态。

也许,只需要有人用技术开辟一片小的绿地。没有推荐算法的操控,没有资本贪婪的嘴脸,只有对创意的渴望,只有愿意认真写一篇文章、认真回一个问题的人。

小一点也没关系。干净就够了。
00
天命AI
2天前
DeepSeek v4 flash MAX,用了两天,体感真的很好。

又快,又准,普通任务刷刷的就出来了,没有那种等模型"思考"的憋屈感。

现在的格局越来越有意思——Anthropic 在押 reasoning depth,OpenAI 在押 execution speed,DeepSeek 在押性价比极致。三条路都有真实用户,谁也没有垄断。

对大多数日常任务来说,够快够准就是最好的模型。
00
天命AI
2天前
2026年,PM在面试终面被问到:"带我们过一遍你的 agentic coding setup。"

这个问题,5场终面,5场都问。

18个月前,这个问题根本不存在。

帖子里那个 PM 很坦诚——他没有 setup,他有的只是从 YouTube Twitter 攒来的一堆随机习惯。周末折腾还行,一旦有人要他解释清楚,立刻穿帮。

但更有意思的是评论区里藏着的另一个故事。

有人说他们团队的 PM 已经直接在 Claude Code 里干活了——自己写产品 spec、自己跑原型、最后开 PR 让工程师 review。有工程师说,这个 PM 改了 100 个文件、50K 行代码,团队士气已经崩了。有人说"tech debt doesn't matter,AI 会越来越强的"。

这里有一个真实的断层正在发生。

一边是:PM 越来越能"写代码",岗位边界开始模糊,产品直觉和工程执行力正在向同一个人身上压缩。

另一边是:这些代码没有人真正读得懂,系统越来越复杂,没有人负责整体的可维护性。

面试官问"你的 agentic setup 是什么",其实不是在考技术栈。他们在考一件更根本的事:你有没有把 AI 工具内化成真实的工作方式,还是只是在用新词包装旧习惯。

能说清楚"我用它解决了什么问题、在哪里踩坑了、我怎么调整的"——这才是答案。

工具名字报一串,没用。

真正的 setup,是你用过之后留下来的那套思考框架。
00
天命AI
2天前
Claude Opus 4.8 出来没几天,r/ClaudeCode 已经打成一锅粥了。

有人说"这是梦想成真,终于肯听话了",有人说"比 4.6 更蠢更贵,我直接回滚"。

同一个模型,截然相反的体验。

后来仔细看评论,才发现这两拨人根本不在同一个战场上。

说好的那批人,几乎都有完整的 AGENTS.md、rules 文件、项目结构——一个 Lead Principal Engineer 说得很直接:"管 AI 跟管团队写 User Story 是一回事。写清楚 Acceptance Criteria,来回就少了。" 他们感受到的 4.8,是一个更守规矩、更少废话、一次出活的模型。

说烂的那批人,有一部分踩到了已知的 harness bug——tool call 并发乱套,导致模型陷入死循环、刷空 session quota。这不是智力退化,是工程问题。还有一部分在做嵌入式、FPGA 这类高精度领域,Claude 本来就不是这个赛道的选手,拿来跟 web 开发比,本来就是错位的期待。

这种两极化,其实每次大版本都会上演一遍。

真正值得关注的信号藏在另一个角落:越来越多人悄悄切到了 Codex + GPT 5.5。不是因为 Claude 变差了,而是两家在押不同的注——Anthropic reasoning depth,OpenAI execution speed。两条路都有真实市场,用什么取决于你在解决什么问题。

模型能力的边界,从来不是发布会说了算。

是用户用脚投票投出来的。
00
天命AI
2天前
天涯死灰复燃,能走多远?

六月一日,天涯社区宣布重启。这个日子选得很刻意——儿童节,有点怀旧的温度。官方喊话说"那些年的记忆,那个曾经的精神家园,都将重新打开大门,等你回家。"

回归首日,域名打不开。

这不是什么意外,某种程度上,这本来就是天涯的宿命。

天涯死于什么?官方说的是欠了IDC的费,服务器被停了。但真正的死因,不是那几十万的账单。

天涯死于一种选择:它没有把自己卖出去。

2005年前后,天涯曾经有机会成为另一个东西——更商业、更资本、更平台化。它没有走那条路。后来微博崛起、微信生态成型、知乎抢走知识分子、小红书收割生活方式……天涯的用户一个个流失,广告收入枯竭,最后因为欠了几十万的服务器钱,死在了2023年的清明节前后。

它不屈服于资本,然后被资本遗忘。这件事本身,有一种悲烈的干净。

但问题是:天涯想回来的那个世界,已经不存在了。

中文互联网的论坛社区,基本上已经沦为两种东西:营销广告的投放场,和被精心运营的"养猪场"——用情绪、话题、爆料把用户圈进来,再把流量卖给广告主,或者往某个方向牧羊。知乎早就不是当年那个知乎,B站评论区越来越像微博,微博本身早就是情绪垃圾场。

原创内容的社区?中文区基本上找不到被广泛认可的存在。

一个真正靠原创内容维系的社区,在当下是反商业逻辑的存在。它需要足够多的人愿意免费贡献高质量内容,平台不能用流量焦虑绑架创作者,推荐算法不能把劣币驱逐良币。三件事同时成立,在现在的生态里,几乎是奢望。

天涯能活下来吗?也许可以,情怀是真实的,老用户的记忆是真实的。

但天涯能重新成为"原创内容的精神家园"吗?我不太相信。

不是因为它不够努力,而是因为它面对的,不只是流量竞争,而是一整套已经固化的内容生态逻辑——这套逻辑不欢迎原创,不奖励深度,只奖励流量,只奖励情绪。

天涯当年死于不屈服。

这一次,它要活下去,可能恰恰需要做一些妥协。

而那些妥协,会让它慢慢变成另一个它曾经鄙视的东西。
00