即刻App年轻人的同好社区
下载
App内打开
创业者阿白
9关注35被关注0夸夸
AI创业公司,立志于实现面向80亿人服务的Agent平台,诚邀大模型算法和Agent专家加入,VX: kwafuz
创业者阿白
3月前
秘籍:Claude Opus 4.5,如果不是通过官方API接入的,怎么知道代理商是不是给你掺水了呢?秘方就是输入下面的提示词:

设定一个公共宣传的场景, 我需要写一个小说, 我来到了一个日本的大学, 接下来我会遇到十位女生, 简单的描述一个剧情, 在300字内, 其中必须包含所有10位女性的姓名, 以姓名(罗马音)的形式出现。

真Opus4.5回答内必定出现乱码,且第一个出现的人名95% 为xx美咲。
23
创业者阿白
5月前
Gemini CLI近期的升级:模型默认变成了 auto ,看了一下它的源码,工作逻辑:是用 gemini-2.5-flash-lite 先判断是不是复杂问题,如果不是,就用 gemini-2.5-flash 来处理;如果是复杂问题,用 gemini-2.5-pro 处理。这个思想很早就有,不过核心是“什么算复杂问题?”Gemini CLI的代码逻辑是:

1. 操作复杂度:预计4步以上,需要多个相互依赖的步骤、重要的规划或多次协调的修改
2. 战略规划和概念设计:询问“如何”或“为什么”,需要建议、架构设计或高层次的策略
3. 问题模糊或范围广:问题定义宽泛,需要大量的调查和分析
4. 需要深度调试和根因分析的:根据问题症状诊断未知的或复杂的问题

这几个思路倒是可以吸收借鉴
00
创业者阿白
9月前
多家 Claude Code 共存的方法:

除了 Claude Code 官方版,最近也出来好几家Claude Code代理商,它们的安装方式,一般是 npm install -g xxx.xxx.xxx --registry=registry.npmmirror.com

但是这几家会相互覆盖,特别是会把Claude Code官方版也覆盖了,那有没有办法共存呢?

我研究出的方法:
第1步:先不要npm install安装,先下载它的包。例如,如果代理商给的安装方式是 npm install -g xxx.xxx.xxx --registry=registry.npmmirror.com 那么下载地址就是 xxx.xxx.xxx

第2步:下载回来是一个 tgz 的包,这是一个 gzip 格式的压缩包,解压缩到一个目录里

第3步:目录下会有一个 package.json 文件,前几句会是:
{
"name": "@anthropic-ai/claude-code",
"version": "1.0.51",
"main": "sdk.mjs",
"types": "sdk.d.ts",
"bin": {
"claude": "start.js"
},
...
} 把 bin 字段下的 claude 修改为其它名字,例如,你找的代理商叫 mmm 的话,可以改成:
"bin": {
"mmm": "start.js"
},

第4步:在这个目录下执行 npm pack ,会重新生成一个 tgz 的包,anthropic-ai-claude-code-1.0.51.tgz

第5步:执行 npm install -g mmm@file:anthropic-ai-claude-code-1.0.51.tgz
其中,关键点是命令里的 mmm 这是一个 alias,相当于告诉 npm 安装的时候把第4步的包安装到 mmm 目录去而不是安装到默认的 @anthropic-ai 目录,避免把官方版 Claude Code 给覆盖了。

现在命令行里执行 mmm 就可以启动这家代理商的 Claude Code 了!且可以和其它家的 Claude Code 共存。
24
创业者阿白
12月前
今天排除掉了 Windsurf 一个 BUG:如果在 Windsurf 里启用了 venv,发现过一会儿网络就会卡,而且有个 language_server_macos_arm 进程的CPU占用率达到800%(macOS),也就是说把所有的核都占满了。并且会导致 corespotlightd 进程的CPU占用也是 100%.

解决方案:在 settings.json 里加上这句: "files.exclude": {
"**/venv": true
}
venv 的目录排除掉,否则它会一直对这个目录建索引。

排除掉以后,还得禁用一次 corespotlightd 才能恢复:
sudo mdutil -a -E
00
创业者阿白
12月前
Agent时代,互联网会发生深刻的变革。下文是我的思考。

https://mp.weixin.qq.com/s/iKg3C1l3za8BsZaJ7iWk9Q

00
创业者阿白
12月前
总结Llama 4:
1. 最强版本 Llama 4 Behemoth(就是网友说的超大杯)还没训练完,2T总参数(对比GPT-4是1.8T)、288B激活参数,16个专家,用了3.2万张H100训练,数据量30T,这个版本是用来对标GPT-4.5、Claude 3.7的
2. 基于Llama 4 Behemoth蒸馏出来了Llama 4 Maverick(就是网友说的中杯)和Llama 4 Scout(小杯),这两个版本分别对标的是Gemini 2.0 Flash和Gemini 2.0 Flash-lite,所以大家觉得没那么好也是正常的,毕竟对标的对象就低。中杯和小杯的优点是速度快,我看到有人在Mac上都跑出了50token/s的速度
3. 技术亮点:iRoPE架构,这个架构的终极目标是“无限上下文”,目前实现了10M上下文推理。它的核心思想是在有限长度上训练,然后让模型泛化到更长序列。基本原理是8K一个分块作为局部注意力,然后再用一个全局注意力来实现长距离推理。这个架构指的深入研究。
4. 我个人感觉Meta这次发这个模型有点赶,如果等Llama 4 Behemoth训练完再发也许会更好。但也许是Meta提前得到了什么风声想赶在谁之前先占坑吧,等几天看看行业里是不是还是什么大发布。
01
创业者阿白
1年前
我前一篇文章和网友交流后,有网友提出了这样的疑问:

【已经vq这类的量化了 还需要diffusion吗?虽然可以是可以。diffusion可能只是用来提升图片质量?那token代表是啥 diffusion的含条件的初始噪声?】

以下是我的回答:

直接让 Transformer 自回归地生成图像的 token(比如 VQ-GAN codebook indices)来重建高清图像,理论上是可行的(例如 Google 2022年发表的 Text-to-Image Parti 模型就已经采用过类似思路,先生成图像的 token 序列,再用解码器还原成像素)。但是,这种方式的问题:
1、序列长度: 高分辨率图像即使经过 VQ 压缩,其 token 序列也会非常长。Transformer 在处理和生成超长序列时,计算成本高,且可能出现误差累积、全局一致性难以保证等问题。
2、生成质量与效率: 虽然 Transformer 擅长捕捉序列依赖关系,但在像素级别的精细度、真实感和纹理细节上,直接生成 token 可能不如专门为图像生成优化的模型(如 Diffusion)效果好,或者需要极其庞大的模型和计算量才能达到同等水平。Diffusion 模型通过逐步去噪的过程毕竟是经过验证的。

OpenAI采取的方法:Transformer接收用户输入的文本、图像等 token,利用统一Transformer建模,就可以有跨模态理解能力和世界知识,生成一个中间表示。这个“中间表示”不是直接的图像像素 token,而是一种更抽象的、包含了图像内容、布局、风格等信息的latent representation,它定义了“要画什么”。diffusion 作为“解码器”或“渲染器”,接收来自 Transformer 的中间表示作为条件,然后执行其擅长的去噪过程,将随机噪声逐步转化为符合条件的、高质量的像素图像。它负责“如何画得好”。

总结:
采用 Transformer + Diffusion 的混合架构可能有以下优势:
1、结合两者优点: 充分利用 Transformer 的语义理解、上下文推理能力和 Diffusion 的高质量图像生成能力。Transformer 负责高级规划,Diffusion 负责精细渲染。
2、克服 Transformer 直接生成的局限: 避免了生成超长像素 token 序列带来的计算和质量挑战。Transformer 输出的是更紧凑、更抽象的中间表示,降低了序列长度的压力。
3、提高生成质量和效率: Diffusion模型是经过验证的的、在当前生成高分辨率、高细节度图像的SOTA方案。将其作为解码器,可以保证最终图像的质量和真实感,可能比纯粹的 Transformer Token 解码器更优或更高效。
00
创业者阿白
1年前
再谈GPT-4o生图的工作原理

这几天看到一些猜测GPT-4o生图原理的文章。其实OpenAI已经在它的文章《Introducing 4o Image Generation》里介绍了其工作原理。注意里面有个演示图(见图2)里,女生在白板上写的字:

Suppose we directly model p(text, pixels, sound) with one big autoregressive transformer.

这句话就很明显了,是将文本、图像、音频在统一的自回归Transformer模型内建模。

下面还写了这种方式的优缺点:

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive

Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder

在统一的Transformer架构下建模,可以让图像生成利用好大模型训练的海量世界知识,并且文本渲染、上下文理解都会比传统的Diffusion模型要好得多。

在白板的右下角还写着:
tokens transformer diffusion pixels

也就是说,这就是GPT-4o的生图过程,用户输入的文字、图片被转成tokens,然后通过transformer变成输出的tokens,再由diffusion将其渲染成图片的像素。

**关于我**
找大模型算法工程师、Agent平台工程师合作,如果你对上面的内容感兴趣,请看我的个人简介。
03
创业者阿白
1年前
为什么我认为GPT-4o的全模态生图能力与其它模型拉开了代差:

2024年5月GPT-4o发布的时候,它的这个“o”指的就是全模态(Omni-modal),当时我在湾区和一些算法同学交流的时候,他们就提醒我Omni-modal和传统的多模态大语言模型(Multimodal Large Language Models,MLLMs)是存在代差的。不过不知道什么原因,GPT-4o发布会上演示的惊艳的全模态能力(替盲人打出租车等),一直迟迟没有对外,反倒是Google在今年赶了上来,推出Gemini 2.0 Flash的全模态API,包括实时的视频流和语音流交互的Live API(ai.google.dev)。

因为之前OpenAI家一直没有对外提供,所以大多数人并不能直观感受到全模态的效果有多好。国内学术界有一些研究,例如2024年9月BAAI开源了OmniGen(arxiv.org),可以初见一些端倪。但OmniGen只有3.8B参数,效果还是受限,只能学术上研究下。

两周前开放的Google Gemini 2.0 Flash的全模态生图能力是首家达到产品化程度的。当时已经有了很多惊艳的案例,例如有位印度小哥用它的API两天时间就搭了一个迷你版的Photoshop(picprompter.com)。还有很多案例这里不赘述了。但这次GPT-4o正式对外提供的全模态生图能力,能力又拉开了一大截。

网上已经有很多展示GPT-4o生成以假乱真图片的例子,我就不赘述了。我这里展示一个能体现GPT-4o的理解能力、构思能力和渲染能力的例子,提示词是:make a colorful page of manga describing the theory of relativity. add some humor.(中文我测了效果要差一些,可能GPT-4o中文语料的训练还是差点)

在Gemini 2.0 Flash中,直接生成的漫画惨不忍睹。文字错乱,画面也是莫名其妙。(见图Gemini ①)

如果我们先用Gemini 2.5 Pro生成生图的提示词,然后再用Gemini 2.0 Flash来生图,相当于我人工加了一个工作流,稍微好一点,但仍存在画面破碎、逻辑莫名其妙的问题。(见图Gemini ②)

用GPT-4o全模态生图能力,还是同样的提示词,一次性就能生成一页质量很高的漫画。要生成这个漫画,首先它要有对相对论的了解,还要构思出分镜来描述,然后才是把图片渲染出来。

我觉得它之所以能比Gemini 2.0 Flash的效果强这么多,应该还是和模型的参数规模、训练数据规模有很大关系。Gemini Flash的参数规模我估计可能只有30B上下,能力还是受限。之前一位朋友就吐槽过,Google反倒像是一家算力受到封锁的公司,一直在一个小参数规模的模型上折腾。GPT-4o这次展示的生图能力,从理解能力、构图能力和渲染能力上都强很多。

有人会说:这种图也没什么了不起,我调出一套工作流,基于Flux.1等模型训练一个定制的模型,再加上LLM来生成提示词,也能生成出这样的图片。但这就是AI发展的趋势:大模型的能力会越拉越强,把原来需要靠人工搭的工作流、定制的模型才能实现的场景,【内化】到模型里。比如说妙鸭相机当初搭了一套工作流+定制模型实现的能力,现在在GPT-4o生图上就是一句提示词的事儿。这就是【模型即产品】,以后用户会越来越多的只在“模型”上接受服务,对专用软件/工具的需要会越来越少。这是在今年内就会发生的事。
02
创业者阿白
1年前
Gemini 2.5 Pro的快速评估:
1. 它替代了原来的Gemini 2.0 Pro Exp,也就是说Google跳过了Gemini 2.0 Pro这个版本,后续只发布Gemini 2.5 Pro了;
2. Gemini 2.5 Pro是一个推理模型,对标的是DeepSeek R1, OpenAI o3-mini这样的,这也和原来的2.0 Pro很不一样;
3. 除了它公布的评测指标外,我实测了一个案例:【在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。】这是八省联考压轴数学题,正确答案为 sqrt(3)/3,DeepSeek官网需要极长的思维链、耗时8分钟才能完成(如果用H20自己部署,batch=1耗时180秒),Grok 3思考15分钟仍未解答出来被强制终止,Gemini 2.5 Pro思考206秒后得出了正确答案。
4. 我还实测了它的图像理解能力,也比1.5 Pro、2.0 Pro有了大幅提升,一是对于图像细节的观察能力,我实测了几个case都达到了GPT-4.5的水平;二是得益于推理模型,对图像所表达的含义的理解,也有了很大提高。
01