即刻App年轻人的同好社区
下载
App内打开
Nothing_8
83关注269被关注1夸夸
Nothing_8
1月前
open -a "Antigravity" --args --disable-gpu-driver-bug-workarounds --ignore-gpu-blacklist --enable-gpu-rasterization

反重力IDE体验很卡的朋友可以试试这个命令启动,对我来说改善很大(甚至是无敌)
10
Nothing_8
3月前
目前AI确实有“awesome”时刻,但是其也有着非常明显的能力上限

目前主流的模型就是御三家:opus、gpt-5.2、gemini-3

opus的优势是通人性,弊端是上下文达到一定体量时犯糊涂,忘事。
gpt-5.2的优势是自动压缩不会破坏上下文表达出来的语义信息,弊端是需要有明晰的任务要求或者是非常明晰的任务文档。
gemini-3的优势是较为明显的审美优势,劣势是pro少到可怜的50k有效上下文,flash的话能力没有较高的统治地位表现。

目前AI Coding适合做的东西:
1. 语料足的东西:文字内容
2. 上下文长度友好的任务:opus处理文字没问题,你要是让opus读2张4k图,你看他脑子还正不正常
3. 有特别明晰的任务指引的东西:几乎手把手教,且要保证无歧义
4. 能凑活的东西,能动就是100分
5. 纯文字辅助工作

AI Coding目前很难搞的东西:
1. 审美:目前opus和gpt-5.2的识图是达到了“看图识字会写作文”和“照猫画虎”的情况,你要让他创造艺术基本不可能。gemini-3生态的nano banana的话确实是让模型在审美上有了飞跃,但他目前的评价是"趋近人类期望"而不是替代。
就像你在路边看到的照相馆宣传图,一看哎呦挺好看,你进去拍完拉垮的不行。一问店长,店长说不是有差距,而是"你描述的不好"。我觉得相比"佳能XX,倾斜角度,蓝天白云,开心,白色背景,伟大的作品"的提示词反思,直接给店长一拳应该是最正确且高效率的做法。

2. 创新的东西:如果你让AI CLI去从0开始都给你做完了,那只有两个原因,第一个是你这个太简单,第二个是你这个别人做烂了。
为啥商城从0到1可以出,因为太简单因为做烂了,淘淘商城都可以写到近代开发JAVA编年史当作石碑纪念了;
为什么现在从0开始做游戏不是小车WASD就是贪吃蛇,因为太简单因为做烂了,做简历demo的人手一个贪吃蛇,r3f应用demo遍地开花;
如果你把你思想甩到破圈的交流论坛,如果有人能从被窝里爬起来,给你表演1h被窝黑客松的话,那可能确实是比较危险了,但如果没有的话就说明你思想没问题,放轻松。
3. 较为复杂,且想一口成:刚才说了opus有上下文长了就呆傻的症状,gpt-5.2有专注到斗鸡眼的症状。
想一想吧朋友们,如果你说现在有个外包,做个石头剪刀布可能没问题。你要是让他做魔兽世界?那可有意思了。
opus:"哦对了第三章了我记得吉安娜的妹妹应该是安度因"。
gpt-5.2:“哦你说移动系统啊,做完了,什么?移动到石头里面不是很正常吗”
opus的话你就得每次都得走一步重新/new,走一步提醒一下
gpt-5.2的话你就得每次都得说"不对不对,移动不是这样的,移动不能穿墙的"

如果真想做的话:
1. 拆分小小模块,制作一小部分,尽可能保持背景信息独立(我就让她说人物A和人物B的交互)
2. 看看vibe在任务对应领域能力是否ok:如果是SDK不懂就让他去读文档(context7 MCP)如果是某标准规范他不懂就让他调用浏览器去读网页(Chrome devtools MCP)
3. 做好备份:特别是opus,一招毁坏一座城的概率还是很大的。
4. 管理好上下文:如果是opus,前半部分上下文阈值可以干高要求工作,后面最好少干重活,勤保存状态/new,不要用自带的自动压缩,很垃圾,让他总结过程文档,/new后再读取继续干。
5. 有详细的规划,如果不详细可以和cc交流,让他调用askUserQuestion给你提供旮旯game选项(不是),或者是直接和他交流,如果你担心歪,就说'请说出你的理解',交流没问题如果上下文满了总结交流文档开新会话执行,如果没满直接开干。
6. 慎用他人方案,要测试其是否真正适合自己,openspec+bmad一甩,我觉人应该比AI先犯迷糊。

AI Coding的火我认为不是其能给你创新,而是给你提供一个'智能补全',它能基于经验给你提供目前市面上可能的解决方案或实现,但是实现毕竟是实现,它不是一个“精品”,"精品"还是要依靠人的。
就这么说,AI能完全实现《忍者明》的方式只有一个:"偷走全部源码"+“学会工具使用方式”+“借助Engram问的时候直接逐字逐句摘抄”。
你说让他一口气实现你的思路+你的交互+调试工具+个人智慧+美术绘制。怎么可能呢。他目前能干一个环节就很不错了。
AI Coding就是"码二代",吃满了家里老资历的代码经验,确实有东西,但是你说让他去替代目前前沿技术创新和思想创新的人,那我觉得还是太不尊重了。

全即刻能vibe出XX系统的人漫山遍野,但是全即可能做出《忍者明》的只有一位(应该没团队的吧?我母鸡啊,如果有的话再加几位)。

还有目前我觉得skill目前替代可行性最高的人群,并不是码农、开发者,而是以“再不学你就out”这种AI泔水自媒体。
目前已经开发出可以实现类似方法的工作流了,但是公司原因暂不方便公开,这些b自媒体再散播焦虑+卖课,正经东西都不发的人你们等着吧,再让我杰克老师@杰克有茶 焦虑我就把你们都取缔了!(遇敌时投降)

---
【插一句】为啥现在skill混成了command的样子,就是因为他无法做到像人类真正好好运用自己的"skill",还是得靠自己触发。Claude.md是可以从身份上去进行灵活运用,但是能用几个?Claude.md能不能覆盖到?这就很难了,现在skill火我个人觉得就是command生不逢时,之前command太好用也没人提,A社提出skill概念但是自己模型玩不转又回撤到command地位。
61
Nothing_8
3月前
如果想做Agent生态开发的朋友,别碰ACP,真的是答辩中的答辩。
你要去兼容它的协议,还要去兼容它不支持的功能,还要去兼容它支持但不稳定的功能。

你想要更新slash,你不仅要单独处理acp的系统配置slash,还要处理acp的feature slash,还要处理acp没有兼容的cli slash。

issue问就是不在最高优先级,问就是等等,我真的是给你一个大摆锤!
为什么我2026年了又陷入“科技公司一定可以完善美好生态,要让大家体会科技改变生活”这种老套陷阱啊!

不折磨自己了,今天写重构文档,明天就全部交给cx大哥哥了
30
Nothing_8
3月前
每次为朋友解答时感觉都有点复读机,所以记录一下,每天写一点,后面就直接转发了。
(AI只负责错误检查+图片生成,文字全手打)
----------------------

我对主流Coding模型的观感-GPT与CodeX

GPT就像你身边那种闷头干活的大神。你说系统上有个问题,GPT能马上开始"正襟危坐","一根烟一杯酒,一段代码看一天",闷着头给你干。但是你找他聊一下对项目的规划与展望,他就有点“对不上频道”了,在身份预设中更强调"技术人员"。

所以在需求明确的问题下交给GPT更好一点,但是在项目的规划与交流上比较弱。

目前我推荐的模型主要为5.2、5.2-codex:
- 5.2:均衡,在世界问题(通用场景下的问题)性能OK,且有明显的科研伦理味道,缺点是运行速度比较慢。
- 5.2-codex:相比5.2"机器味"更浓,运行速度更快,但是有点交差完事的感觉,"多给你干一点都是我的过错"。

思考等级部分我倾向要么xhigh要么medium,xhigh倾向完美解决问题,medium倾向小任务或轻量Agent。

我是全程保持gpt-5.2 xhigh,这里说一下我为什么全程保持xhigh,因为目前的资料表述,思考等级中xhigh表现最好但相比high提升较小。那如果我去追求质量的话我会选择最好表现的思考等级,而资料提到的"微乎其微"的性能提升其实只是数据集的纸面数据,而无法完全覆盖到所有场景中。我可以为更好的质量付出额外的时间成本,但我不愿意用节省的时间成本去换不可预估的性能损失。

目前使用GPT模型的AI Coding工具主要为OPENAI官方工具CodeX
CodeX + GPT 5.2的优劣非常明显:
1. 劣势:速度非常慢,5.2 xhigh跑一次做好10min起步,日常1h的心理准备。
2. 劣势:几乎"全程黑盒",CodeX的显示只有正在工作和工作完成回复。
3. 优势:无敌的"上下文压缩",压缩上下文后不丢失主线任务,所以交给他长任务比较放心。

我常用的场景如下:
1. 需求明确,且强技术性的任务
2. 需要长时间工作的任务
3. 需要长上下文的任务(比如浏览器自动化调试)
00
Nothing_8
4月前
再也不参加即友的活动了,有一种粉丝见Vtuber,Vtuber还要假装营业的样子。
还我的真诚啊魂淡!
20
Nothing_8
5月前
因为Cherry Studio不支持参数生图,所以做了个demo,支持连续对话+生图+比例尺寸修改。

要求key支持 /v1beta/models/gemini-3-pro-image-preview:generateContent 请求方式。

建议使用低额度临时key,虽然请求全由用户发起,但我也无法保证vercel+vibe的安全性。

demo地址:gemini-3-pro-image-preview-demo-r39.vercel.app

Github地址:github.com

如果想自己开发类似的API应用,这里给出官方比较全的文档(找文档找了半天):ai.google.dev

图1是运行界面截图,图2是4K图生成结果(可能会被压缩)
00
Nothing_8
5月前
体验了一下gemini3 pro image preview:

1. 目前API费用还是相对较高(中转站大概能降低到5毛1次)
2. 出图是类似funciton calling的形式,也就意味着如果AI认为你的文字内容不足以出图的话,它就纯文字回复你了,但费用还是生图的费用,这点有点拉跨。
3. 如果模型认为你的文字内容不足以出图的话他会给你提供多种设计方案你可以自己去选,这点我觉的很不错。
4. 虽然标称完美中文显示,但测试期间发现还是无法对清晰度做太高要求,有时候还是会糊。
5. 我认为最大的优势是自然语言的理解,确实是听人话听的最流畅的一个模型。
6. 如果想出比较好的图,可能需要对画布的设计有非常详细的描述,不然图有时候看着元素还是比较空。

测试场景为目前参与的自媒体横向,截图的prompt一般为:“请你帮我基于文案内容生成自媒体视频封面图” + 文案内容文字版

我觉的很强,值得关注。

------------

插播一下:gpt-5.1-codex-max xhigh模型,目前在我心中就是9月的Opus。
1. 指哪打哪能力非常强,之前几个组合尝试解决的BUG一致搞不利索,今天俩小时全部秒了。
2. 项目理解深度很强,不会像其他模型一样翻文件翻多了就迷糊。
3. 前端能力没变化,还是普通。
4. 费用高,但是和claude code比起来性价比还是高了(我CC一天至少120,CodeX一个月120好像都富裕)。
5. 规划能力不足,你让它办事可以,但是让它写规划的话比较差。
6. 能感觉到明显的强英文环境注入,可能也是保证效果的一环。
7. 速度很快。
8. CLI载体CodeX还是那么烂,只能当作启动器用。插件的话目前也没更新。
16
Nothing_8
5月前
gemini3 pro image preview已出,支持自然语言支持思考。
下面是刚发的生图效果
00
Nothing_8
5月前
看了 同乐者 pluribus 前两集,感觉有点怪。
1. 画面构图还是稳。
2. 节奏有点怪,你说节奏慢吧,前面转折快的回不过味;你说快吧,金姐拉闺蜜时的超长特写我都想去搭把手,最后后视镜聚焦病毒复活的人恢复秩序也感觉节奏有点冗。(而且这第一二集有点像补设定一样)
除此之外,这个每次僵硬到恢复的镜头时间太长,都感觉会不会是在暗示什么。
3. 这个BGM真的是加的太多了,感觉都有点喧宾夺主了。
4. 金姐的演绎感觉我摸不到主角的心理动机。
刚开始众人皆醉我独醒,到危机发生,到找车找担架送闺蜜去医院,有一种按部就班的感觉。
再加上过程中出现的秒变战斗脸正经脸,金姐发现这群人苏醒那个神态就给我一种“吔?你们咋起床这么早”的感觉,我感觉还是难以理解。
除此之外金姐这个哭戏我感觉也是有种哭一阵下班的感觉,很怪。
让我有感觉的只有金姐怒斥其他6人说他们是人类的叛徒的时候那个演绎我觉得太好了。
还想吐槽的一个点是金姐拿石头砸门砸的也挺有规矩不着急,我刚开始还以为金姐是没力气了。但后面俩小孩提醒钥匙时,我看金姐这拿石头稳如泰山那个样子,感觉这不仅有力气,核心还挺牛的,这普通人直接就惯性摔倒了。
5. 目前看着第一二集有点普通,如果后面6人是什么找回友情羁绊或者是反对者倒霉的话,那我就觉得有点烂了。

落差很大,可能是我阅历太浅了。
30