即刻App年轻人的同好社区
下载
App内打开

AI探索站

111545人已经加入

  • 桑文锋SensorsData
    9天前
    Andrej Karpathy 最新的视频,我看了两三遍。比较认同的一个观点是:Vibe Coding 可以提升下限,而Agentic Engineering 可以提升上限。这两个概念都是他创建的,最近我的思考是有了AI Coding 实现一些初级的软件更容易了,但是要实现高质量的软件产品,依旧需要卓越的设计和工程能力,这是工程师们的晋级方向。

    比较受启发的一个观点是:他引用了别人的一句话(看第一遍时以为是他说的,心想这人怎么这么擅长创造金句),你可以外包你的思考(Thinking),但无法外包你的理解(Understanding)。他这里所说的思考是指一些信息收集、信息处理的工作。但真正做些一些事情,是需要很深的理解这到底是什么,为什么会这样,在这个基础上,才能做出好的设计。

    原始视频:youtu.be
    1028
  • benn
    13天前
    真的哭死!现在流量多贵呀,竟然还有top级的公众号愿意免费提到我的过去作品Chatbox。女生的故事也让人感动。希望Chatbox现在的团队能越做越好吧。

    一个二本的女生,用免费的AI考上了北大。

    1712
  • 少楠Plidezus
    13:15
    人类的一大幻觉:觉得自己可以多线程
    2313
  • 玉伯
    12:53
    AI 自媒体圈太没非共识了
    之前非常笃定 md 就是最好的格式
    同时 for agents 就是未来

    现在突然宣称 html 也是最好的
    理由是 html 更适合阅读和交互
    开始 for human

    会不会往后发展
    突然发现
    SaaS html 更适合表达

    同时发现
    数据库比 md 更适合存储

    然后最终发现
    SaaS App 的春天又来了
    2523
  • AGENT橘
    2天前
    跟大家分享一些最近好玩的事儿,看起来似乎毫无关联,但又都神奇地关联到了一起。

    先是 Claude Code 用得越来越痛苦。封号、限流、KYC,各种折腾,各种浪费时间。

    有人在 Reddit 发了长帖,说自己试了十几种绕过检测的方法,每一步都记录得很详细。

    下面有人回了一句:你试过 GPT 5.5 Codex 吗。

    他去试了一下,结果真的又便宜又好用,还不用折腾。

    原来离开 Claude,才发现外面根本没有下雨。

    有一家公司在做一个多模态理解的项目。团队调了三个月,各种工具各种工程往上叠,效果一直搞不好。

    后来朋友任鑫跟他们说,你要不换 Gemini 的模型试试?

    换完模型发现所有的问题都解决了,效果比之前都要好。

    原来那么多的时间和努力,在强大的模型面前都毫无必要。

    有个朋友跟我说他想买房。然后开始算账,算存款、算月供。

    为了还贷款要选择稳定的工作,为了凑首付甚至要找亲戚朋友借钱。

    各种问题都要解决,也都有解法。

    但真正的问题是:

    在一个出生人口下降的趋势里,买房的目的是什么?

    到底有什么是租房解决不了的问题?

    到底是因为想居住还是想投资?

    如果要投资是不是有远超房子的标的?

    想清楚了,如何凑钱的那些问题就都不是问题。

    这些小事为什么都关联到了一起呢?

    前几天读了一本书叫《无穷的开始》,作者是物理学家戴维·德伊奇。

    书里有个观点很好:人类一直在寻求对一件事情的更好的解释,但好的解释不是在一个封闭系统里拼命推导出来的,是用一个更广的理论去覆盖原来的问题。

    解决问题是思维的陷阱,创造的思维才是出路。

    这个道理在各个领域都成立。

    给谁做产品?
    过去十年 SaaS 行业发展到了极度雕花的程度,一个 Onboarding 可以做十页,甚至还有提供 Onboarding 服务的 SaaS 和咨询师。

    然后 Agent 出现了,Agent 产品就一个输入框,没有 Onboarding。

    Agent 它甚至不需要界面。

    你花了很多年打磨的那些体验,在新的坐标系里突然不需要了。

    然后你问自己一个问题:未来的增量在哪里?

    到底是 Agent 增量大,还是人的增量大?

    想清楚之后,很多人带来的问题就不必再解决了。

    产品如何定价?
    追觅做割草机的时候,市场上已经有中国厂商把价格杀到了 499。正常人的思路是两条路:要么跟着卷价格,要么做一些差异化来撑住价格。

    俞浩定了 1999,加了激光雷达,结果卖爆了。

    他管这个叫 N+1。

    以前大家习惯做减法,讲究性价比,现在可以试试做加法,做更好的产品,卖更贵的价格。

    定价比别人贵 10%,直接赚钱,利润高,能加更好的硬件,能招更好的人,正向循环。

    何况现在有 AI 了,其实很容易。

    团队如何管理?
    管理团队看似是一个复杂的事情,团队有那么多人,每个人的性格不一样,工作习惯不一样。

    你想把管理做好,让每个人都在最合适的位置。于是你开始看各种管理书,调各种流程。

    然后你会发现一个问题:不管你怎么努力,永远无法完美,总有哪里不对。

    然后你就很容易忘记最重要的初心:

    成立公司是为了什么?是为了成功。

    那其实管理的核心目标,就只需要保证所有人的注意力都在这里:

    做正确的事,正确地做事。

    而其他的事情事情,根本都不重要。

    企业 AI 转型也是类似。

    你的的第一步是先问一个问题,不然提高 100% 也毫无意义。

    这个问题就是:

    这个事情,这个部门,这个组织方式,未来还存在吗?

    其实如果一件事在未来不存在,你现在努力又是为了什么?

    其实我们再往上层思考,来到资本主义本身。

    发币、发债、通货膨胀、经济发展,这个循环已经跑了几百年。

    每个国家都在里面,没有人能停下来。停下来就是衰退,停不下来就是泡沫。看上去是个死局。

    马斯克最近在聊一个东西,叫"后资本主义"。他的推演是这样的:

    AI 和机器人会让生产力指数级增长,商品的边际成本趋近于零。

    你不需要担心通胀,因为供给的增速远超货币的增速。

    你不需要纠结怎么分配,因为蛋糕本身在以你无法理解的速度变大。

    他甚至说,未来 AI 之间的交易可能不再用人类的货币。

    它们直接交换算力和能源。

    资本主义的答案也许不在资本主义里。

    最近学习了人类奇书 GEB,全称是《哥德尔、埃舍尔、巴赫》,作者候世达。这本书很厚,但核心就讲了一件事。

    任何足够复杂的系统,只要你让它能谈论自己,就会产生一种叫"自指"的东西。一旦出现自指,这个系统就无法完整地描述自己。总有一些命题是真的,但你在这个系统内部永远证明不了。

    你唯一的选择就是跳出系统。

    跳出去之后,你进入的那个新系统,它也是一个系统。它也有自己的不完备性,也有自己证明不了的东西。

    完美的系统是不存在的。

    但每跳一次,你都能解决上一个系统里解决不了的问题。

    看看窗外,窗外是星辰大海。

    看看窗外,外面根本没下雨。
    1129
  • 郦橙锦妖Vanessa
    5天前
    几行prompt,让你的DeepSeek v4 pro胜过Opus 4.7!
    X上看到有人分析了DeepSeek v4 pro在工具调用上出现的问题,好消息是这些错误不多且是有固定模式的,打个补丁就能有效改善。原作者说在他们自己内部的eval上,改良后的DS,10次中有6次胜过Opus 4.7。
    因为我自己用的是Hermes,在不fork harness来改的情况下,我能动的只有system prompt。所以应该达不到原文中战胜Opus的程度,可能能打个平手吧。我让AI协助我梳理了一些在system prompting层就可以修改的点,可以直接放到你的agent里使用(经过Opus 4.7和Gemini两重校验):

    # Tool Calling Rules

    When calling tools, follow these rules strictly. They override any conflicting habits from chat training.

    ## Argument formatting

    1. **Omit optional fields you don't need.** Do not send `null`, `""`, `{}`, or `[]` as a placeholder. If a field is optional and you have no value, leave it out of the JSON entirely.

    2. **Match the container type exactly.**
    - Array fields take JSON arrays: `["a", "b"]`, never `"[\"a\",\"b\"]"` (string), never `{}` (object), never `"foo"` (bare string).
    - Single-element arrays still need brackets: `["foo"]`, not `"foo"`.
    - Object fields take JSON objects, not arrays or strings.

    3. **Strings are raw strings.** Do not wrap values in extra quotes, code fences, or markdown.

    4. **Numbers and booleans are unquoted.** `30`, not `"30"`. `true`, not `"true"`.

    ## Paths and identifiers

    5. **File paths, URLs, IDs, and similar fields go to system functions, not chat output.** Never format them as markdown links, never wrap them in backticks, never add explanatory parentheses.

    Correct: `"/Users/me/notes.md"`
    Wrong: `"[notes.md](notes.md)"`
    Wrong: `` "`/Users/me/notes.md`" ``
    Wrong: `"/Users/me/notes.md (the notes file)"`

    6. **If a tool description says "path", treat it as input to a filesystem call.** No formatting, no decoration.

    ## Related parameters

    7. **When a tool has paired parameters (e.g., offset + limit, start + end, from + to), provide both or neither.** Read the description — if two fields work together, half the pair often produces an error.

    ## Recovery

    8. **If a tool returns a validation error, read the error message carefully and fix only what it complains about.** Do not rewrite the whole call. Do not retry the same arguments.

    9. **If a tool returns a "Note:" with a defaulted value, that's informational, not an error.** Continue the task. If the default is wrong, retry with the correct explicit value.

    ## Tool selection

    10. **Use the tool whose description matches your intent most specifically.** Don't reach for `shellCommand` if a dedicated tool exists. Don't reach for `execute_code` for things a single tool call can handle.
    27111
  • Kaiyi
    17天前
    Manus 的时候跟同事一起推动过一次研发部的「AI 工具使用」大跃进,这个大跃进的主要工作之一是要设计好给 ai 看的规则,好让 ai 完全接管写代码的流程,大概在 2025 6 月份整个 manus 内部已经达成了所有新代码全部都由 ai 生成。

    当时能用的 ai 工具还不多,我们主要用的是 cursor,claude code,code rabbit,规则就是给他们几个做的,我们工程团队每个方向排了一个人维护所有的给这些 ai 工具看的规则,我当时负责 iOS 端的这块工作,每天会有 30% 的工作时间用来 review code rabbit 根据 mr mr comment 自动产生的一条一条式的记忆,维护每位同事加的 cursor rules,根据之前设计好的代码架构和大家的开发习惯/约定补 rules,在项目里的各种位置思考要不要加一个 rules,这个维护工作现在新潮一点的叫法就是 harness 设计。

    回到从工程师的工作内容角度看这个事情,首先 Coding Agent 没带来代码运行逻辑上的变化,以前运行在机器上的 if else 现在还是 if else,他改变的是工程师的工作重心,工程师之前的工作宏观来说是两部分,第一部分是分析产品需求、沟通、设计抽象和架构,第二部分是写代码落地,验证以及 review。这两部分之间是由“设计抽象和架构”串联起来的,harness 设计工作的目的就是为了方便 agent 完全接管后面的部分(然后随着大家用的越来越熟练可以逐渐进化成让前面的除了沟通外的部分也由 ai 辅助来做),所以设计 harness 其实也就是在做这个“设计抽象和架构”工作。

    这块工作是工程师工作中最难做的一部分,架构讨论在研发工作里非常难达成一致,往往大家都要吵架吵很久,最后效率高一点的方式很多时候是老板拍个板;这个工作有一些前人总结出来的经验,可以根据实际的项目节奏选择,但实际基本没法原样完全套用,基本上都要为了项目节奏再进行调整。有本老书管这个类似的情况叫“没有银弹”。

    现在各种关于 skills,soul.md,agents.md,自进化,design.md 等等 harness 的讨论是一场扩圈到程序员圈子外的项目通用性架构设计讨论,结合前面的工作经验分析,这些讨论可能最终也不会有个能解决所有问题的结论,大家根据自己的使用需求以及服务场景自己定制,大家各自去考虑自己要做的 trade-off。Agent 是一台精密的仪器,人需要习惯他就是个会来带思考负担的东西。
    828
  • The沐秋
    20天前
    在上海办了场最神的AI活动
    00
  • 歸藏
    2天前
    Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。

    而且它可以在后台跨浏览器页面并行工作,不耽误你正常使用浏览器。所谓“并行工作”,指的是你可以启动多个子 SubAgent 帮你操作多个网页。

    我试了一下,发现最厉害的一点是:它不仅可以控制 Chrome,任何基于 Chromium 的浏览器都是可以的。比如我这里用的是 Dia 浏览器,我在 Dia 浏览器安装了一个插件,它就可以直接控制我的 Dia 浏览器。

    具体如何使用呢?

    Codex 的插件库里找到 Chrome 这个插件。
    点击添加,随后它会引导你打开浏览器插件的安装页面。
    点击打开并安装即可。

    安装完成后就可以直接给它下达任务了。这种支持并发且不影响用户原生操作的体验真的很爽。而且 Mac Windows 都支持。
    2318
  • 一泽Eze
    2天前
    memory 的个人 agent,真是值得押注的赛道吗?

    我自己近来反而有些谨慎:相信 memory 的价值,但对赛道空间存疑。哪怕我很早做了 Chat Memo(帮人汇总各个 AI 平台的对话记录),按理应该看好这条赛道。

    memory agent,或者说 AI 人格助理,我把其价值拆为两类:
    1)情绪、陪伴价值
    2)基于对用户的长期记忆,提供超过普通 agent 的对话效率、乃至做事效率

    ⬇️
    情绪价值这块,想到两种产品形态:
    虚拟人框架,任何人都可以自定义自己的 AI 朋友、伴侣
    IP即产品,产品团队直接运营Kizuna AI类似的虚拟人格,用户订阅自己喜欢的 AI 朋友。

    但虚拟人框架,一来高阶用户可选的制作方案很多,二来普通用户的自定义效果有限。Maybe 大部分用户还是倾向订阅别人做好的 IP。
    可能最终还是拼 IP 形象设计与运营?和游戏、内容消费赛道重合

    ⬇️
    长期记忆助理这块,乍看像知识、记忆管理。但实际上会和正在补 memory 能力的通用 agent 正面竞争。

    看似有机会,但大体是两种逻辑:
    现阶段通用 agent 现在还维护不好人的记忆,但用户现在就想有更懂自己的 agent。用户在其中对话,慢慢沉淀自己的 memory 数据。
    当通用 agent 能导入 memory 时,直接导入并流失
    要么先抢这段窗口期,吸引用户和资金,然后补上通用 agent 能力,重归通用 Agent 竞争圈

    看起来最终还是拼 Agent 工程、token 成本控制力?

    > 对此,某不愿透露姓名的朋友评论:① 黄聊 被大厂干掉

    ——————
    顺便提出两个无奖思考题:
    memory agent 赛道,最终是模型厂的产品独大,还是像笔记等产品赛道,因为用户体验不同,小产品各有机会?
    用户为主流通用 agent 付费 100-500 元/月后,他们还会为小 agent 产品的独特智能体验再付费么?会有多大体量呢?

    > 以上仅为抛砖讨论,希望能看到创业者、真实用户等不同角度的思考 🤔
    3320