即刻App年轻人的同好社区
下载
App内打开

AI探索站

104061人已经加入

  • 极客公园_张鹏
    10天前
    最近飞书、Plaud 这些硬件录音设备引起了不少讨论。大家最自然的质疑就是:“手机明明就能录音,还能转写,为什么要多带一个设备?”

    “如无必要,勿增实体。”既然手机能做,这个新“实体”还有存在的必要吗?

    如果只从“功能层”看,手机确实能录音,能转写,甚至能接 AI。

    但如果我们把视角切换到“交互层”,结论可能完全不同。工具改变的往往不是“能不能做”,而是“怎么做”。

    分享两点思考:

    1. 功能 vs 交互:

    很多人觉得打开 App 录音只是几秒钟。但在真实的会议、访谈或灵感迸发的瞬间,这几秒钟包含了:解锁手机、找到 App、进入录音界面、启动录音……其间可能还需要确认状态、担心电话打断,事后还要头疼录音文件在哪找。

    这一系列动作都在增加你的认知负荷,在不断把你的注意力从“正在发生的事情”上强行拉走。

    专用设备把“记录”从一个需要决策的操作,变成了一种不需要占用心智资源的自然反应。

    这让我想起“可供性”(affordance)这个产品设计领域的概念,简单说,就是物体本身在“暗示”你该怎么用它。

    手机作为一个通用设备,它的暗示是模糊的。而一个专门的录音设备,它的物理形态、按钮、指示灯,都在极其明确地告诉你:“不用多想,我就是干这个的”,通过物理形态降低你启动行为的门槛。手机是“能做”,硬件是“适合做”。

    专用录音设备的价值,不在于它“能不能录音”,而在于它让“记录”这件事变得足够简单、足够自然、足够不打扰。

    当一个工具通过更好的交互设计,让人更愿意去做一件本来就重要的事,它就不是多余的。

    2. 必要性不止取决于功能,还取决于人群

    如果一个月甚至几个月才录一次音,手机确实足够了。

    但是对于高频会议者、内容创作者或需要大量“先记录,再消化”的人来说,手机录音带来的摩擦感是不可接受的。

    “必要性”不仅要看功能,更要看“人群”。

    往往是那些身处其中、有原生痛点的创新者,能率先看到特定人群的“必要性”。

    所以,有一类硬件创新的机会常常在于:
    你通过交互提升的体验,从特定人群那里挖掘出的「价值总量」到底有多大?

    当一个工具让人更愿意去做一件本来就重要的事,它就不是多余的实体。
    2015
  • Szhans
    13天前
    从「赋能」到「赋权」:Claude Code + Opus 4.5 带来的飞跃

    三天,我用 Claude Code 搭了一个 Blog 自动化系统。

    酝酿了蛮久,但是动手后就一路狂奔了。零开始,一个几乎全自动的 Agent 驱动长文写作系统,100% 代码由 Claude Code 来生成;架构的设计思路,则有由 Hans Opus 4.5 共同完成的。这种协作更多是一种「高峰对话体验」,夜以继日的同时多 Session 进行。

    这个 AI 内容工厂的复杂性在于,它是一个从竞品 URL 或想法开始,不断由 Claude 提供主题选题、撰写、评价,再到自动化数据验证、自主迭代的完整流程。超过数十个 Claude Skills ,内嵌了大量的专业领域知识(例如 AEO 、SEO 评价体系和 Nana Banana pro 提示词技巧)以及多个第三方 API 集成数据验证。视觉风格高度可定制,且全部实现了模块化。所以它不仅仅是写篇文章那么简单,而是一套能够写出高品质长文内容的内容发布系统。

    此外,它的核心思想是我称“原子化”的编排思路,系统的可解耦性和可组合性、可迭代性极高。因此,这套系统对于过去时代全栈工程师和产品来说,可能要需要几个月才能开发完成。——所以,这次体验和一年前第一次用 Claude Code 时完全不同。不是更快、更强,而是自主性的「质变」。

    🧠 第一个震撼,来自 Opus4.5 的规划力

    Claude Code 展现出一种超越执行的思考力——当你抛出一个产品方向或架构思想时,它会帮你补全信息盲区、延展思维边界。如果你是产品经理,它的规划会超越你对绝大多数技术的理解;如果你是设计师,它甚至在产品层面给出专家级的互补。如果你是资深工程师,它不断补齐你的需求理解。

    换句话说,洞见依然是你的种子,但它负责轻松帮你看见更大的森林。

    🐜 第二个震撼,来自于模块化的系统构建

    整个过程更像搭乐高——不是纯代码堆砌,一旦你深刻玩会了积木的—— Claude Skills,就停不下来了。起初你并不知道终点在哪里,但只要几颗有深度看法的洞见种子;随着一块块拼接,一个复杂的、几乎全自动的系统就这样涌现出来。对,一种真正的涌现~

    我称之为 AI 工厂蓝图,有自己的产品哲学——高度定制化、符合你的品牌视觉和文字风格,同时与内部所有系统形成互联。这不是通用模板,而是一个高度可定制的自动化工厂,然后,过程中不断完善模块本身。

    举个例子:当我说想要一种更好的预览效果时,它不只是给出答案,而是帮你安装各种 Python 库,找到一种本地预览的捷径,把最终成稿在本地自动完成并打开——从想法到图文并茂的完美呈现,几乎一气呵成。这种模块之间的可协作、可组合,才是系统真正的生命力。

    👑 但真正让我停下来思考的,是第三个层面的变化:从「赋能」到「赋权」。

    以前我们谈 AI 工具,说的是能力增强”——你还是你,只是变得更强。

    但这一次不同。原先被锁在开发、设计师、产品经理,甚至其他专长领域的合伙人手里的实现权、迭代权、决策权,正在被重新赋予给能动性高的创造者。

    这也会产生一种”你无所不能”的幻象,需要时刻警惕:因为真实世界极度复杂,自组织 Agent 还像幽灵一般活在你的电脑有限空间内,无法替代顶级专业团队的协作。但这种”赋权”,是 Claude Code 所代表的新一代工具带来的剧变——它对个体和组织,都将产生前所未有的冲击。

    当这些越来越强大智能体开始替你思考、替你决策,创造的游戏规则就不再是谁会用工具,范式转移可能在于——谁能深刻理解并「驾驭」这些强大的幽灵。
    416
  • HandsoMeng
    2天前
    昨天一个朋友(也可以说是学员吧)在我指导下用 gemini + Trae 做了个特别好看的小工具,且用 vercel 挂上了她自己的域名。

    她做完以后朋友圈反响很好,发了个小红书,第二天 2k 赞了,几百人私信找她要这个链接。

    她发了个朋友圈,很开心,我说你乘胜追击,上架一个商品,1 块钱,自动发货,她也照做了,立刻开店,一个小时卖了 50 单,此刻还在跑量。

    下一步就是开小号,铺笔记,上投放,把这波量吃干净。项目持续进行中,想必她一定很激动,我也是。

    这就是 AI x IP 时代的魅力,零成本赚钱,还不用抄别人。

    她做的那个小工具,给我 100 个脑子我也想不出来,但每个人都是独特的自我,能吸引到自己的同好, IPxAI 的意义帮你放大优势。
    2736
  • yusen
    3天前
    最近一个月 Claude Code 的爆火连带着 Pencil.dev,Clawdbot 等基于 Coding Agent 能力的产品都不断刷屏,开年第一个月,AI 的进展就又让人目不暇接。个人总结有三个重要原因:

    1)代码是数字世界的通用语言,解决好代码问题就能在数字世界畅通无阻。

    2)随着模型 Coding Tool use 能力的不断提高,Coding Agent能够稳定完成的任务越来越多,越来越长。虽然 Opus 4.5 并不是新范式,刚发布的时候 benchmark 看起来也没有那么惊人,但能力的量变最后却可能产生体验的质变,也许这就是“水烧开了”。

    3)Skills 的出现和普及让用户可以更加容易地组合不同场景的技术,创造之前难以想象的魔法体验。此刻 Claude Code 变成了操作系统,而技术的组合变得如乐高积木一样越来越容易。

    类似 Clawdbot 这样的产品或者说开源项目,本身是给喜欢尝鲜不怕折腾也无所谓结果的 Innovators 使用的,对哪怕是 Early Adopter 来说也很难部署。但它很可能会成为很多产品的灵感来源。让我想起2023 年曾经爆火的AutoGPT,启发了 2024 年的 Devin,从而进一步启发了 2025 年的 Manus/Genspark/Claude code等第一波Agent产品。

    估算一下,世界上已经有接近 20 亿用户用过如 ChatGPT 等Chatbot,近10 亿人使用 Office,但只有大概小几千万人用过 Claude Code、Manus/Genspark等 Agent 产品。能够缩短这 100 - 50 倍差距的产品将会是接下来的最大机会之一。

    精通技术不怕折腾的早期用户却往往会低估一个易用的交互界面有多重要,所谓「壳有壳的价值」。图2是2007年一位专家用户对一家YC初创公司是否有技术含量的质疑,这家公司叫Dropbox。

    在技术剧烈变革时,最好的产品可能是:技术已经到了80分,但大多数人的认知还停留在三四十分,然后好产品能够创造魔法时刻,让大家看到90分的未来。如图3中Kevin Roose所说,未来已来,但可能从未这么不均匀分布过。

    当模型公司引领技术进步的时候,能够让未来更加均匀分布的应用公司的更大机会也可能即将到来。
    1064
  • 阑夕ོ
    1天前
    Nano Banana + Kling,把经典电影场景做成立体微缩模型。

    提示词:

    核心主题 (Core Concept)

    创建一个干净、收藏级的高品质微缩模型场景(Diorama),对附带的参考图进行重构。目标是将原画面完全重建为具有实体质感的精密比例模型。

    参考执行规则 (Reference Adherence)

    [关键要求]:严格以参考图作为场景布局、物体摆放和构图的唯一且精确的依据。

    禁止重新演绎场景或替换原有物体。

    所有车辆、建筑、道具和地形必须保持与参考图完全一致的相对位置。

    角色(如果存在)应渲染为微缩人偶风格,不包含真实面部细节。

    风格与材质 (Style & Materials)

    美学风格:干净、现代、高级感的模型美学。

    材质质感:高品质模型材料,表面呈现光滑、哑光(Matte)或轻微丝绸光泽(Satin)。

    细节处理:简化但保留忠实的微缩比例(Miniature Realism)。

    画质:超清晰洁净,无颗粒感,无噪点。

    环境与底座 (Environment & Base)

    底座:带有倒角的独立雕刻底座,边缘线条干净极简。底座自然地承载所有物体,无任何外壳包围。

    背景:纯白无缝影棚背景(Pure White)。除模型底座外,周围没有任何环境元素。

    灯光与镜头 (Lighting & Camera)

    视角:等轴视图(Isometric)或微俯视 3/4 视角。模型需居中且完整可见(无裁剪)。

    光照:柔和的影棚布光(顶光及微侧光),仅在物体下方产生细微的接触阴影。避免戏剧性的聚光灯或强对比度。

    镜头:等效 35mm–50mm 焦段,无畸变。

    负面提示 (Negative Prompt - 禁止出现)

    不要包含:玻璃罩、亚克力展示盒、博物馆展柜、透明立方体、保护壳、玻璃反光、标签或铭牌、文字覆盖、杂乱的背景、电影感动态模糊、景深模糊。
    210
  • 歸藏
    2天前
    试了一下 Kimi-K2.5,真的很顶!

    美学表现、设计还原、从视频还原动效交互都是 T0 水平。

    我后面写前端应该都会优先用这个模型了。

    里面还有些藏师傅的使用小技巧:mp.weixin.qq.com

    ======

    为什么审美重要

    以前 AI 生成的网页,不管你提示词写得多好,默认生成的结果都很土。

    设计师每次都得反复调教,普通人根本不知道怎么描述自己想要的风格。

    K2.5 解决了这个痛点:

    ▸ 对设计师:它能更好地遵循你的设计稿和提示词,帮你还原想象中的设计
    ▸ 对普通人:不用管提示词,不用找参考,把内容交给它就行

    这两个加起来,迭代代码和生成网页就很舒服了。你可以随便找参考内容扔给它——图片、视频、网页链接都可以,然后通过截图标记不断迭代。

    ======

    测试 1:Tab 切换交互组件

    既然支持视频了,就搞个难的。

    我找了一个 Tab 切换的交互视频,这个组件虽然小,但交互挺复杂。切换到右侧时会一分二,选中状态变白色,还有文字移动、回弹效果、右侧的胶囊设计。

    提示词:
    「帮我实现视频中的这个前端组件,重点是丝滑的交互动效,可以使用 anime.js 这类动效库,重点关注切换后的已选中和未选中颜色变化以及关于右侧一分二之后的设计细节」

    ------

    第一次生成的交互动效就还原得很好了。

    基础视觉有些小问题,比如左侧文字颜色和右侧对齐。我截图标红反馈之后,立刻搞定。

    来看跟原始 AE 做的动效对比,基本所有要点都处理好了:圆润的文字字体、右侧一分二、颜色互换、黑色包裹白色胶囊。

    它甚至加上了 duangduang 的回弹动效,看起来比原始交互更有活力和真实感。

    ------

    这类小组件的交互视频才是最难的考题。

    因为变化很快,交互的真实感往往是很多非常小的细节堆叠起来的。K2.5 第一次测试就完成得不错,我原本没指望它能做到。

    ======

    测试 2:从视频到完整的卡片系统

    这个案例展示如何用 K2.5 的多模态能力迭代一个项目。

    首先找灵感,我找到一个天气卡片切换的动效,非常丝滑。把视频发给 K2.5,让它还原这部分动效。

    提示词:
    「帮我根据这个视频实现类似的交互。中间的天气图片可以用互联网图片。交互核心:鼠标 hover 上去时,卡片大小调整的弹性变化和无缝过渡的动效(如弹跳效果等),可以用 Anime.js 等动效库去完成。功能模块:删除卡片、调整卡片大小」

    第一个版本就搞出了不错的东西。

    ------

    有些视觉小问题,我截图标记发给它,不需要费心描述位置和细节。而且我还在修复问题的时候让它加功能。

    经过两轮修改,基本就还原了视频原本的交互动画和效果。除了图标不一样,K2.5 实现的效果我觉得甚至比原视频还要好一些。

    ------

    做到这里,基本上完成了一个类似 iOS 卡片组件的动效效果。

    自然而然就想把这部分做完,加上更多的卡片类型,同时处理纵向的排列逻辑。

    于是又去找其他类似卡片设计参考,找到一个阅读卡片还不错。让它基于现在的交互效果,为系统增加阅读卡片的样式,同时增加添加卡片的按钮。

    ------

    进行两三次这样的迭代之后,实现了一个非常炫酷充满动效的卡片组件自定义系统。

    现在它支持天气卡片、纯文本卡片、书籍卡片、书籍推荐卡片、股票卡片。所有的操作都有动画,即使是添加和删除,每个部分都加上了不同卡片大小的样式适配。

    还记得之前有个个人链接聚合产品就是这样的吗,后来还被收购了。而我们现在只需要打几个字,点几下同意就能完成这样精美的产品。

    K2.5 已经完全可以支持通过 Vibe Coding 和多模态参考的形式,跳过设计直接进行开发。你完全可以通过不同的参考图边设计边开发,而且相较于 Sonnet 4.5 便宜很多。

    ======

    Agent 模式:给它一个链接,啥也不说

    这次的 Agent 模式非常强,给了 K2.5 虚拟机和各种工具之后,任务完成率高了一大截。

    你甚至可以直接给它一个链接,啥也不说,就让它复刻这个网站。

    它会自己访问网页,然后一点一点浏览、截图、存档分析。如果网站允许的话,它甚至可以帮你把图片素材都搞过来。

    ------

    直接看结果,K2.5 把所有的交互和内容都搞定了,甚至那个卡片缺角也在有意模仿。

    而且它不是 1:1 复刻,它会在一些小细节上采用自己的设计风格,而且这个风格很一致,会保持完整个网页。

    从这个例子可以看到,K2.5 是有自己的美学逻辑和思维的,不只是单纯的像素级致敬。

    它会抽取参考网页的设计思路和特殊的处理方式,然后自己再进行融合处理。当然你说你就是想让它像素级复刻,多改几次它也会遵循。

    ======

    最惊艳的案例:设计系统规范网站

    这个是意外。

    我整理了一个设计风格的提示词,准备给它一个文档,变成网页的。结果我忘了发文档本身,就把提示词发了进去。

    但它给了我一个非常惊艳的结果:它直接为这个提示词做了一个设计系统的设计规范网站。而且本身的风格也是跟着提示词来的。

    ------

    这个提示词其实非常长,要求很多。

    结果它的遵循相当不错,用结合各种组件把具体的要求和设计风格都展示出来了。它还给背景加上了那种很像条纹的纹理,有种很像纸张的感觉。

    ------

    还有一个案例也是无意间跑出来的。

    当时我让它复刻一个网页,可能网页有反爬它没有拿到信息。但是自己发挥依然给了一个相当不错的结果。

    这说明它的自主设计能力已经很强了。

    ======

    使用建议

    从这次测试的结果来看:

    ▸ 简单效果和代码:用普通模式就行
    ▸ 复杂项目、大量动效、多资料参考:用 Agent 模式

    ------

    Agent 模式的任务完成率明显高很多,但消耗的 Token 也更多。根据你的项目复杂度和预算选择。

    ======

    局限性

    这次的多模态能力虽然有了非常大的进步,但与其他类似模型一样,在涉及到一些非常小的设计细节时,它其实无法完全理解和捕捉到那些精准的数值。

    主要体现在几个方面:

    ▸ 很小的圆角
    ▸ 卡片的描边细节
    ▸ 具体的色值

    这方面我觉得大家(多模态模型)都还需要继续努力。

    ------

    但总体来说,K2.5 在前端审美和动效复刻上已经是目前最好的选择之一了。配合 Agent 模式,边设计边开发的工作流已经很流畅。

    而且相比 Sonnet 4.5,便宜不少。
    00:46
    523
  • zhijie
    25天前
    如果你能对每条IM消息进行编程。

    事情的起因是,今天打算发送一张图片给微信好友,但是担心对方在上班,万一当众把图片打开就社死了。

    于是想到,要是IM软件可以让你在发送图片的时候,自定义图片的显示效果就好了,例如对方看到图片是有一层模糊效果的,需要手指滑动才能看到原图片。

    这个时候灵光一现,何必只是图片呢,只是这个效果呢?如果对于每一条消息,用户都能选择如何显示以及会有什么效果呢?

    用户在发送消息时,可以由AI推荐效果,也能由用户自己输入。接着 AI 就可以根据文字描述写好代码,最好代码就能随消息一起发送出去,并显示在屏幕上。

    有了这个想法后,就在 ai studio 上让 gemini 写了一个 demo,就是视频的这个样子了。
    01:00
    1615
  • 陈知新
    25天前
    📊 我一天到底工作了多少?来看看键盘和鼠标使用量!前端同事假期做了个macOS 菜单栏应用,可以知道你的鼠标今天走了多少米,滚轮滚了多少万像素:github.com
    (隔壁cursor同事敲了最多的Tab🤣)

    除此之外,昨晚还有其他同事,不约而同地发布假期作品:
    - 设计师做了个桌面便签应用(用的electron)
    - pm做的小程序
    (像是要参加什么hackathon)

    【团队还在招设计师和增长负责人,如果以上的氛围吸引到你,欢迎戳我聊聊】

    (主业是AI产品,上个月的token消耗是1/5的manus)(一种计量方式,没有蹭manus的意思(´・_・`)
    3054
  • Mickey麦
    2天前
    做产品这些年,我反复咀嚼过很多心理学模型,但如果只推荐一个最能解释“为什么用户不按你设想的去做”的模型,那一定是福格行为模型。

    我常跟团队分享一个关于「接电话」的比喻,非常直观地拆解了这个模型的三个核心要素:B=MAP。

    📞 一个关于“接电话”的行为博弈

    假想,你面前有一部正在响铃的手机,要让你产生接听这个动作,必须同时满足三个条件。但凡缺失一个,行为都不会发生:

    1.动机Motivation:你想不想接?
    如果来电显示是营销骚扰电话,即便你手机就在手边,铃声震天响,你大概率也会直接挂掉或无视。这就是动机不足。

    2.能力Ability:你能不能接?
    如果你正站在台上给老板做年度汇报,或者正在洗澡满手泡沫,即便你极其渴望接到那个面试通知,你也没能力在这个瞬间按下接听键。

    3.提示Prompt:你知不知道要接?
    如果手机调成了静音且放在客厅,即便你很想接电话,也有充足的时间去接,但你压根没听到铃声。没有这个触发信号,行为永远不会启动。

    🚀 映射到产品设计:别只盯着动机死磕

    很多 PM 在面对用户流失或转化率低时,第一反应往往是给得不够多,于是疯狂加福利、发券、堆功能,试图拉高动机

    但根据福格模型,这往往是最费力不讨好的路径。真正的增长黑客,通常在另外两个维度下功夫:

    1.减少用户行为门槛:与其说服用户完成一个复杂的表单,不如实现一键授权:与其教用户怎么写提示词,不如直接给一个好用的模板。最好的体验是让用户不费吹灰之力就完成了动作。

    2.设计精准的触发器: 提示弹窗不是骚扰。一个好的提醒,应该像是在用户正好口渴时递上的一杯水。如果用户刚打开 App 还没摸着头脑,你就弹出一个五颜六色的评价框,那不是提示,是噪音。

    做产品设计,本质上是在经营用户的认知带宽。
    当我们发现功能推不动时,不妨问自己三个问题:

    1.用户真的有理由做这件事吗?
    2.我们的流程是不是太重,重到他想做也做不成?
    3.我们有没有在那个最关键的瞬间,轻轻推他一把?

    唯有 M、A、P 三线交汇的那个瞬间,行为才会像奇迹一样发生
    722
  • 我爱呼吸
    1天前
    为什么为什么为什么没人看!!!
    Manus 过气了还是 ThinkingHumans 过气了😠

    万字解析 Manus 的 PMF 和 AI Agent 赛道竞争的稳态约束

    347