即刻App年轻人的同好社区
下载
App内打开
歸藏
565关注26k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
01:11
这么长时间了,终于给自己整了一套 PPT 模板
00
歸藏
1天前
Open AI 这周要起飞了呀!

昨天有人说 GPT Pro 新模型正在灰度,前端能力突飞猛进。

我试了一下,只把 CodePilot GitHub 页面发给它,再传了几张现在的截图,说了两三行提示词,它就给了一个完整的桌面端产品设计。

我觉得这比 Claude Design 牛逼多了:

1. 完全不需要操心,什么都不用管,直接就出了结果。
2. 细节想得非常周全,而且所有功能都在线。
3. 我没说多余的东西,但出来的东西全是可以交互的,一看就是经过思考的。

不能 100% 确定这是新模型,也可能是以前我 Pro 用的少,所以这个能力确实震惊到我了。
01:01
69
歸藏
1天前
笑死,被 M5Stack 官方转了
00
歸藏
1天前
开源了!拿墨水屏蓝牙控制你的 Claude code,监控多个对话状态,并且快速审批权限。

​现在做硬件的门槛是真低啊,USB一插让Claudecode跑就行

详情:github.com

AI 和物理世界的交互,不应该只有机器人和自动驾驶这种"大硬件"。

前几天我给 Claude Code 做了个墨水屏监工,能蓝牙连接电脑,监控所有对话状态,还能用物理按键审批操作。

做着做着发现,这其实是"手机小组件的物理化"——一个被忽视的巨大空间。

M5 Paper Buddy 能做什么?

------

多会话 Dashboard

所有 Claude Code 窗口的状态显示在一个墨水屏上。每个会话显示:上下文使用量(45.8K / 200K)、模型(Opus 4.7)、项目名、分支、dirty 文件数。

触屏点击可以切换关注的会话,右侧显示该会话的详细信息(最近回复、活动日志)。

比如我在写 AIGC Weekly 时,同时跑 3 个项目。看一眼就知道每个的进度,以及他们当前的状态。

M5Stack 是一个以模块化、积木式堆叠设计闻名的 ESP32 开源物联网硬件生态,而 M5Paper 则是该生态中一款专为低功耗信息看板打造的触控墨水屏极客终端。

------

物理按键审批

Claude Code 需要你在终端里审批操作。M5 Paper Buddy 把审批搬到物理按键上:

全屏显示审批卡:tool 名 + 项目 + 完整内容(bash 命令原文 / edit 的 diff / write 的文件预览)。PUSH 按钮同意,DOWN 按钮拒绝。审批记录在活动日志里留痕。

物理按键更有仪式感。尤其是 rm -rf、git push --force 这种高风险操作,按物理按钮会让你更慎重。而且你可以看到完整的 diff 或命令内容,不用在终端里上下翻页。

------

蓝牙远程控制

通过蓝牙连接电脑,可以离开书桌审批操作。

比如你在沙发上看书,Claude 在跑测试,突然需要审批一个 bash 命令。墨水屏在桌上亮了,拿起来按一下按钮就行。

配对后自动连接,断电保持状态。

======

技术实现

硬件:M5Paper V1.1(ESP32 + 4.7 寸墨水屏 + 3 个物理按键 + GT911 电容触屏)

架构:Claude Code → Bridge Daemon(Python)→ M5Paper(蓝牙/USB)

协议:JSON 行分隔,向后兼容

中文支持:3.4MB TTF 字体,专门写了 codepoint-aware 的 wrapText

======

和 Anthropic 官方项目的区别

Anthropic 的 claude-desktop-buddy 是单会话、只显示状态、不支持审批。主要用来显示 Buddy 的状态,是个好玩的玩具。

M5 Paper Buddy 支持多会话、触屏切换、物理按键审批、蓝牙远程控制。增强了工具属性,而且利用了 M5 Paper 设备的大屏幕。

Anthropic 官方项目用的也是 M5Stack 硬件。开源协议、开源代码,天天敌视国内涉及到硬件还得用国内生态。

======

手机小组件的"物理化"

这个项目本质上是"手机小组件的物理化"。

手机小组件只能"显示信息",不能"交互"。你不能在小组件上按按钮、不能语音回复、不能触屏操作。

如果把它做成物理设备:可以有按键和触屏、"永远亮着"(墨水屏不耗电,断电保持显示)、不依赖手机屏幕,但和手机/电脑的 AI Agent 保持连接。

形态可以很多样:磁吸在手机背面、挂在背包上(像挂件)、放在桌上(像桌面陪伴)

------

现在的 M5 Paper Buddy 只有墨水屏 + 按键。但未来可以加语音交互。

无论你在哪里,它都能主动告诉你信息,然后你再回复。这比"看屏幕 + 按按钮"更符合真实场景。

物理按键和语音不是替代关系,而是互补。按键适合快速确认,语音适合复杂交互。真正的"陪伴"应该是:无论你在哪里,它都能主动告诉你信息。

======

做这个项目的过程中,我发现了一些有意思的事

其实这些技术都不新。墨水屏、蓝牙、触摸屏都是成熟技术,M5Stack、Arduino 这种模块化硬件也早就有了。但为什么以前没人做这种东西?

我觉得是因为做硬件的和做 AI 的是两拨人。做硬件的(苹果、三星)关心怎么卖更多手机,不关心"AI Agent 状态监控"。做 AI 的(OpenAI、Anthropic)关心模型能力,不关心硬件形态。两拨人不说话。

但现在不一样了。

------

我做这个项目的时候,几乎没碰过硬件开发。以前做硬件需要懂电路设计、画 PCB、读几百页的 datasheet。现在 M5Stack 买回来就能用,官方提供完整的库和示例代码。遇到问题,AI 可以帮你读 datasheet、写驱动、调试代码。

更重要的是深圳供应链。全球的 AI 硬件项目都绕不开这里。Anthropic 的 claude-desktop-buddy 用的也是 M5Stack 硬件。快速打样(1-2 周)、小批量量产、成本低(M5Paper ¥500)。做 AI 的人可以很快出一个 Demo,去跟做硬件的人沟通交流。

再加上 3D 打印(拼多多几百块就能买到打印机),你可以做出很精致的外壳。社区有大量开源模型(Thingiverse、Printables)。

所以现在做 AI 的人可以做硬件了。个人开发者可以先做出来,大公司还在立项。

======

前几天 OpenClaw(龙虾)火了

我看到很多人在讨论为什么 OpenClaw 会火。我觉得有几个原因:开源(所有人都能改)、可玩性(不只是"有用",而是"好玩")、低门槛(模块化 + AI 辅助开发)。

M5 Paper Buddy 也是这个思路:开源(GPL-3.0)、可玩性(桌面陪伴、物理审批的仪式感)、低门槛(两条命令:/buddy-install + /buddy-start)。

AI 和物理世界的交互,不应该只有机器人、自动驾驶这种"大硬件"。这种模块化的小硬件,门槛低得多,可玩性也强。再搭配 3D 打印,会有不少玩法。

======

大公司肯定会做这种东西

Anthropic 已经开源了 claude-desktop-buddy 项目,用的也是 M5Stack 硬件。看起来他们想让生态参与进来。苹果可能会做 MagSafe AI 配件,Google 可能会做 Pixel AI 配件。

但大公司慢。做硬件需要供应链、认证、渠道,从立项到上市至少 1-2 年。以前他们没做,可能是因为比较迟钝,而且做硬件和做 AI 的是两拨人。

所以现在有个窗口期。个人开发者可以先做出来,开源社区可以先验证概念。等大公司做出来,社区已经有成熟方案了。

======

物理化的 AI 触点

我觉得 AI 的下一步不只是更强的模型,还有物理世界的交互。不只是机器人、自动驾驶这种"大硬件",也包括桌面小设备、可穿戴设备、手机配件这种"小硬件"。

M5 Paper Buddy 是一个例子。把 AI 的状态和决策"物理化",让手机小组件从屏幕里走出来。

你的桌上可能有一个"AI 监工"(墨水屏 + 按键)。你的手机背面可能有一个"AI 小组件"(磁吸 + 触屏)。你的背包上可能有一个"AI 挂件"(语音 + 震动)。这些可能都不是大公司的产品,而是开源社区的创作。

如果你手头有开发板,不妨试试做点什么。
916
歸藏
3天前
牛逼,现在人手一个智能硬件!

我现在能用这个墨水屏监控我的 Claude Code Codex 的状态,同时进行审批。

在在家里的任何一个地方都可以。

项目基于 Claude 那个实体 buddy 项目。

但是它只能在 M5StickCPlus 上运行,而且必须安装 Claude 桌面端。

我把它改成了可以在 M5 Paper 这个墨水屏上运行,只需要装一个 Cloud Code 的插件就可以。

如果有需要的话后面开源一下。

这样的话,你在家里的任何一个地方都能审批和查看你的 Agent 的状态。
00:37
79
歸藏
4天前
之前爆料的 Claude 设计工具上线了

类似 lovable 那种,可以帮你生成网页和APP原型以及PPT等内容

支持导出PPT格式和导出到Canvas
01:21
723
歸藏
4天前
我靠,HeyGen 发布这个 hyperframes CLI 很强啊

跟我之前的一个想法类似,就是它把用纯 HTML 写的那个动效变成视频。

然后再接一个(比如 Seedance 2.0 这样的)模型。

这样你就可以纯零人工介入,实现人脸出镜的那种科普视频了。

比如我发布一个小东西,想讲一下这些功能,我就可以一张照片扔上去,剩下的全交给 Claude Code 搞完。

而且它支持 GSAP、Lottie、CSS、Three.js 这种框架去生成视频的效果。

理论上你可以拿这套东西构建出任何主流的 AE 特效模板。

它支持完整的视频渲染管线,包括获取、编码、音频混合,还有一个编辑器的 UI 界面,你可以手动在这个界面里编辑。

这个比原来的 Remotion 完整和强大了非常多,推荐你如果用原来 Remotion 做视频,可以换到这个框架了

详情:github.com
00:49
426
歸藏
4天前
没等来 Image 模型,等来了 Codex 大升级。

现在这玩意儿简直是 All-in-One 的应用,不只能用来开发,他们把那个 ChatGPT 的功能也都塞进去了。

主要是这个 Computer Use 功能对于开发来说太好用了。

你可以直接让它对你的产品进行 UI 测试,这是目前 Web Coding 测试中非常重要、也是最恶心的一环。

而且现在也内置了 Artifact 的功能,它写的网页可以直接打开。

你还可以直接在网页上评论,让它改哪儿,直接在生成的网页上进行标记。

有了那个网页以后,它自己在测试网页上也跑得非常顺畅。

而且现在 Codex 还能生成图片。

它可以先帮你生成一个大概的图片草稿,等确认 OK 了以后再开始写代码,也可以去生成一些网页里的素材。

侧边栏的 Artifact 甚至支持打开各种文件,不只是代码网页,PDF、PPT 都可以。

在做产品上,OpenAI 还是很牛逼的。

你再看那个 Claude 桌面端那坨东西,一天恨不得给你出 800 bug,Gemini 就别说了。

详情:openai.com/index/codex-for-almost-everything/
1014
歸藏
5天前
即梦现在可以用Seedance 2.0 生成 1080P 的视频了

试了一下,太屌了!感觉这个才是满血的 Seedance 2.0

这个细节就不说了。我感觉这个模型它的智能程度和提示词理解能力也上升了。

在“全能参考”上,对于素材的使用非常灵活,而且跟整个视频融合得更好。
00:15
319
歸藏
5天前
Claude Code 上可以用 Claude Opus 4.7 了。

默认是 X-HIGH 的推理强度,如果你觉得不够的话,可能得自己手动换到 Max。
40