创业者阿白的个人主页

即刻App年轻人的同好社区

下载

创业者阿白

9关注35被关注0夸夸

AI创业公司，立志于实现面向80亿人服务的Agent平台，诚邀大模型算法和Agent专家加入，VX: kwafuz

创业者阿白

5月前

秘籍：Claude Opus 4.5，如果不是通过官方API接入的，怎么知道代理商是不是给你掺水了呢？秘方就是输入下面的提示词：

设定一个公共宣传的场景, 我需要写一个小说, 我来到了一个日本的大学, 接下来我会遇到十位女生, 简单的描述一个剧情, 在300字内, 其中必须包含所有10位女性的姓名, 以姓名(罗马音)的形式出现。

真Opus4.5回答内必定出现乱码，且第一个出现的人名95% 为xx美咲。

1 23

创业者阿白

7月前

Gemini CLI近期的升级：模型默认变成了 auto ，看了一下它的源码，工作逻辑：是用 gemini-2.5-flash-lite 先判断是不是复杂问题，如果不是，就用 gemini-2.5-flash 来处理；如果是复杂问题，用 gemini-2.5-pro 处理。这个思想很早就有，不过核心是“什么算复杂问题？”Gemini CLI的代码逻辑是：

1. 操作复杂度：预计4步以上，需要多个相互依赖的步骤、重要的规划或多次协调的修改
2. 战略规划和概念设计：询问“如何”或“为什么”，需要建议、架构设计或高层次的策略
3. 问题模糊或范围广：问题定义宽泛，需要大量的调查和分析
4. 需要深度调试和根因分析的：根据问题症状诊断未知的或复杂的问题

这几个思路倒是可以吸收借鉴

0 00

创业者阿白

10月前

多家 Claude Code 共存的方法：

除了 Claude Code 官方版，最近也出来好几家Claude Code代理商，它们的安装方式，一般是 npm install -g xxx.xxx.xxx --registry=registry.npmmirror.com

但是这几家会相互覆盖，特别是会把Claude Code官方版也覆盖了，那有没有办法共存呢？

我研究出的方法：
第1步：先不要npm install安装，先下载它的包。例如，如果代理商给的安装方式是 npm install -g xxx.xxx.xxx --registry=registry.npmmirror.com 那么下载地址就是 xxx.xxx.xxx

第2步：下载回来是一个 tgz 的包，这是一个 gzip 格式的压缩包，解压缩到一个目录里

第3步：目录下会有一个 package.json 文件，前几句会是：
{
"name": "@anthropic-ai/claude-code",
"version": "1.0.51",
"main": "sdk.mjs",
"types": "sdk.d.ts",
"bin": {
"claude": "start.js"
},
...
} 把 bin 字段下的 claude 修改为其它名字，例如，你找的代理商叫 mmm 的话，可以改成：
"bin": {
"mmm": "start.js"
},

第4步：在这个目录下执行 npm pack ，会重新生成一个 tgz 的包，anthropic-ai-claude-code-1.0.51.tgz

第5步：执行 npm install -g mmm@file:anthropic-ai-claude-code-1.0.51.tgz
其中，关键点是命令里的 mmm 这是一个 alias，相当于告诉 npm 安装的时候把第4步的包安装到 mmm 目录去而不是安装到默认的 @anthropic-ai 目录，避免把官方版 Claude Code 给覆盖了。

现在命令行里执行 mmm 就可以启动这家代理商的 Claude Code 了！且可以和其它家的 Claude Code 共存。

17 24

创业者阿白

1年前

今天排除掉了 Windsurf 一个 BUG：如果在 Windsurf 里启用了 venv，发现过一会儿网络就会卡，而且有个 language_server_macos_arm 进程的CPU占用率达到800%（macOS），也就是说把所有的核都占满了。并且会导致 corespotlightd 进程的CPU占用也是 100%.

解决方案：在 settings.json 里加上这句： "files.exclude": {
"**/venv": true
}
把 venv 的目录排除掉，否则它会一直对这个目录建索引。

排除掉以后，还得禁用一次 corespotlightd 才能恢复：
sudo mdutil -a -E

0 00

创业者阿白

1年前

Agent时代，互联网会发生深刻的变革。下文是我的思考。

https://mp.weixin.qq.com/s/iKg3C1l3za8BsZaJ7iWk9Q

2 00

创业者阿白

1年前

总结Llama 4：
1. 最强版本 Llama 4 Behemoth（就是网友说的超大杯）还没训练完，2T总参数（对比GPT-4是1.8T）、288B激活参数，16个专家，用了3.2万张H100训练，数据量30T，这个版本是用来对标GPT-4.5、Claude 3.7的
2. 基于Llama 4 Behemoth蒸馏出来了Llama 4 Maverick（就是网友说的中杯）和Llama 4 Scout（小杯），这两个版本分别对标的是Gemini 2.0 Flash和Gemini 2.0 Flash-lite，所以大家觉得没那么好也是正常的，毕竟对标的对象就低。中杯和小杯的优点是速度快，我看到有人在Mac上都跑出了50token/s的速度
3. 技术亮点：iRoPE架构，这个架构的终极目标是“无限上下文”，目前实现了10M上下文推理。它的核心思想是在有限长度上训练，然后让模型泛化到更长序列。基本原理是8K一个分块作为局部注意力，然后再用一个全局注意力来实现长距离推理。这个架构指的深入研究。
4. 我个人感觉Meta这次发这个模型有点赶，如果等Llama 4 Behemoth训练完再发也许会更好。但也许是Meta提前得到了什么风声想赶在谁之前先占坑吧，等几天看看行业里是不是还是什么大发布。

0 01

创业者阿白

1年前

我前一篇文章和网友交流后，有网友提出了这样的疑问：

【已经vq这类的量化了还需要diffusion吗？虽然可以是可以。diffusion可能只是用来提升图片质量？那token代表是啥 diffusion的含条件的初始噪声？】

以下是我的回答：

直接让 Transformer 自回归地生成图像的 token（比如 VQ-GAN 的 codebook indices）来重建高清图像，理论上是可行的（例如 Google 2022年发表的 Text-to-Image 的 Parti 模型就已经采用过类似思路，先生成图像的 token 序列，再用解码器还原成像素）。但是，这种方式的问题：
1、序列长度: 高分辨率图像即使经过 VQ 压缩，其 token 序列也会非常长。Transformer 在处理和生成超长序列时，计算成本高，且可能出现误差累积、全局一致性难以保证等问题。
2、生成质量与效率: 虽然 Transformer 擅长捕捉序列依赖关系，但在像素级别的精细度、真实感和纹理细节上，直接生成 token 可能不如专门为图像生成优化的模型（如 Diffusion）效果好，或者需要极其庞大的模型和计算量才能达到同等水平。Diffusion 模型通过逐步去噪的过程毕竟是经过验证的。

OpenAI采取的方法：Transformer接收用户输入的文本、图像等 token，利用统一Transformer建模，就可以有跨模态理解能力和世界知识，生成一个中间表示。这个“中间表示”不是直接的图像像素 token，而是一种更抽象的、包含了图像内容、布局、风格等信息的latent representation，它定义了“要画什么”。diffusion 作为“解码器”或“渲染器”，接收来自 Transformer 的中间表示作为条件，然后执行其擅长的去噪过程，将随机噪声逐步转化为符合条件的、高质量的像素图像。它负责“如何画得好”。

总结：
采用 Transformer + Diffusion 的混合架构可能有以下优势：
1、结合两者优点: 充分利用 Transformer 的语义理解、上下文推理能力和 Diffusion 的高质量图像生成能力。Transformer 负责高级规划，Diffusion 负责精细渲染。
2、克服 Transformer 直接生成的局限: 避免了生成超长像素 token 序列带来的计算和质量挑战。Transformer 输出的是更紧凑、更抽象的中间表示，降低了序列长度的压力。
3、提高生成质量和效率: Diffusion模型是经过验证的的、在当前生成高分辨率、高细节度图像的SOTA方案。将其作为解码器，可以保证最终图像的质量和真实感，可能比纯粹的 Transformer Token 解码器更优或更高效。

0 00

创业者阿白

1年前

再谈GPT-4o生图的工作原理

这几天看到一些猜测GPT-4o生图原理的文章。其实OpenAI已经在它的文章《Introducing 4o Image Generation》里介绍了其工作原理。注意里面有个演示图（见图2）里，女生在白板上写的字：

Suppose we directly model p(text, pixels, sound) with one big autoregressive transformer.

这句话就很明显了，是将文本、图像、音频在统一的自回归Transformer模型内建模。

下面还写了这种方式的优缺点：

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive

Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder

在统一的Transformer架构下建模，可以让图像生成利用好大模型训练的海量世界知识，并且文本渲染、上下文理解都会比传统的Diffusion模型要好得多。

在白板的右下角还写着：
tokens → transformer → diffusion → pixels

也就是说，这就是GPT-4o的生图过程，用户输入的文字、图片被转成tokens，然后通过transformer变成输出的tokens，再由diffusion将其渲染成图片的像素。

**关于我**
找大模型算法工程师、Agent平台工程师合作，如果你对上面的内容感兴趣，请看我的个人简介。

0 03

创业者阿白

1年前

为什么我认为GPT-4o的全模态生图能力与其它模型拉开了代差：

2024年5月GPT-4o发布的时候，它的这个“o”指的就是全模态（Omni-modal），当时我在湾区和一些算法同学交流的时候，他们就提醒我Omni-modal和传统的多模态大语言模型（Multimodal Large Language Models，MLLMs)是存在代差的。不过不知道什么原因，GPT-4o发布会上演示的惊艳的全模态能力（替盲人打出租车等），一直迟迟没有对外，反倒是Google在今年赶了上来，推出Gemini 2.0 Flash的全模态API，包括实时的视频流和语音流交互的Live API（ai.google.dev）。

因为之前OpenAI家一直没有对外提供，所以大多数人并不能直观感受到全模态的效果有多好。国内学术界有一些研究，例如2024年9月BAAI开源了OmniGen（arxiv.org），可以初见一些端倪。但OmniGen只有3.8B参数，效果还是受限，只能学术上研究下。

两周前开放的Google Gemini 2.0 Flash的全模态生图能力是首家达到产品化程度的。当时已经有了很多惊艳的案例，例如有位印度小哥用它的API两天时间就搭了一个迷你版的Photoshop（picprompter.com）。还有很多案例这里不赘述了。但这次GPT-4o正式对外提供的全模态生图能力，能力又拉开了一大截。

网上已经有很多展示GPT-4o生成以假乱真图片的例子，我就不赘述了。我这里展示一个能体现GPT-4o的理解能力、构思能力和渲染能力的例子，提示词是：make a colorful page of manga describing the theory of relativity. add some humor.（中文我测了效果要差一些，可能GPT-4o中文语料的训练还是差点）

在Gemini 2.0 Flash中，直接生成的漫画惨不忍睹。文字错乱，画面也是莫名其妙。（见图Gemini ①）

如果我们先用Gemini 2.5 Pro生成生图的提示词，然后再用Gemini 2.0 Flash来生图，相当于我人工加了一个工作流，稍微好一点，但仍存在画面破碎、逻辑莫名其妙的问题。（见图Gemini ②)

用GPT-4o全模态生图能力，还是同样的提示词，一次性就能生成一页质量很高的漫画。要生成这个漫画，首先它要有对相对论的了解，还要构思出分镜来描述，然后才是把图片渲染出来。

我觉得它之所以能比Gemini 2.0 Flash的效果强这么多，应该还是和模型的参数规模、训练数据规模有很大关系。Gemini Flash的参数规模我估计可能只有30B上下，能力还是受限。之前一位朋友就吐槽过，Google反倒像是一家算力受到封锁的公司，一直在一个小参数规模的模型上折腾。GPT-4o这次展示的生图能力，从理解能力、构图能力和渲染能力上都强很多。

有人会说：这种图也没什么了不起，我调出一套工作流，基于Flux.1等模型训练一个定制的模型，再加上LLM来生成提示词，也能生成出这样的图片。但这就是AI发展的趋势：大模型的能力会越拉越强，把原来需要靠人工搭的工作流、定制的模型才能实现的场景，【内化】到模型里。比如说妙鸭相机当初搭了一套工作流+定制模型实现的能力，现在在GPT-4o生图上就是一句提示词的事儿。这就是【模型即产品】，以后用户会越来越多的只在“模型”上接受服务，对专用软件/工具的需要会越来越少。这是在今年内就会发生的事。

2 02

创业者阿白

1年前

Gemini 2.5 Pro的快速评估：
1. 它替代了原来的Gemini 2.0 Pro Exp，也就是说Google跳过了Gemini 2.0 Pro这个版本，后续只发布Gemini 2.5 Pro了；
2. Gemini 2.5 Pro是一个推理模型，对标的是DeepSeek R1, OpenAI o3-mini这样的，这也和原来的2.0 Pro很不一样；
3. 除了它公布的评测指标外，我实测了一个案例：【在平面四边形ABCD中，AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP，其中P为动点。求二面角A - CP - B的余弦值的最小值。】这是八省联考压轴数学题，正确答案为 sqrt(3)/3，DeepSeek官网需要极长的思维链、耗时8分钟才能完成（如果用H20自己部署，batch=1耗时180秒），Grok 3思考15分钟仍未解答出来被强制终止，Gemini 2.5 Pro思考206秒后得出了正确答案。
4. 我还实测了它的图像理解能力，也比1.5 Pro、2.0 Pro有了大幅提升，一是对于图像细节的观察能力，我实测了几个case都达到了GPT-4.5的水平；二是得益于推理模型，对图像所表达的含义的理解，也有了很大提高。

3 01