即刻App年轻人的同好社区
下载
App内打开
凯文冲冲冲
389关注240被关注0夸夸
来到这世上,就想多看看,多聊聊。
凯文冲冲冲
20天前
Kimi K2能否替代Claude?UI惊艳但功能尚不完整

这个周末属于Kimi K2 thinking 模型,一时间感觉它变成了国产第一模型。主要是图1这张图,第一排的各项测评能力都超过了GPT和Claude,但是第二排的代码能力上,略微低于GPT和Claude,但是基本追平了。

所以第一时间我也下载了Kimi CLI 来对比下Claude Code。我基本上每天都在用Claude Code,虽然Kimi K2 Thinking也可以套在Claude Code上,但是为了避免有模型跟agent 应用之间的不匹配,我还是下载了Kimi CLI来使用Kimi K2 Thinking 模型,一般自家的应用会对自家的模型有一定的调整和优化。

我一般测试都是从困难到容易,我先是测试了一个web 应用,用来从某个有名的财经网站爬取我关注的财经博主的帖子来进行公司的分析(难点在于登录和反爬机制),虽然Claude code也没做出来,但是Kimi K2 Thinking 直接给了我这样一个页面。图2.

那我只能退而求其次,让它做一个简单的。给出10以内的加减法,帮助我家二宝熟练掌握计算。Kimi 直接出来的界面 - 图3还不错。但是接下来让Kimi 对接qwen ocr 模型,来识别黑板上的数字自动判断错对,Kimi Thinking 来回修改了两次,都没有改好。最后还是让Claude code来修改了。

我的感觉是,Kimi k2 thinking + Kimi CLI 目前实践下来综合代码能力还是比Claude Code差不少。但是看别人的实践,感觉还挺能打?会不会是我的提示词问题,那么就复制一段“卡尔的AI沃兹”的构建mac web os的提示词,直接扔个kimi 2 thinking 看看。图4.

从前端页面看,确实挺清爽的,感觉也符合提示词有的功能,比如文本编辑器、计算器等,但是很多功能其实根本不是完整的,只是有这个功能而已,比如文本编辑器,只是打开一个文本编辑界面,然后输入文本,仅此而已,不能保存,甚至没法调整文本编辑器的显示界面。图5. (右边的滚动条决定了输入的区域大小)。

所以想要达到让小白用户言出法随的境地,还有不远的距离,但是从前端的实现UI效果来看,我看还是不错的。这说明前端的构建能力已经达到了可用的地步。
10
凯文冲冲冲
21天前
通过DeepSeek R1了解推理模型的前世今生07

这篇算是完结篇了,一起来看下DeepSeek R1 是通过哪几步来完成的,总共就5步,从图片上就很容易理解整个过程。这里需要注意的是,前面几步都是为了合理生成高质量的推理数据,毕竟R1 是一个推理模型。非推理数据的准备相对容易一点,直接使用DeepSeek V3 base 模型来生成就可以。

1. 首先从 DeepSeek V3 Base 通过冷启动SFT, 用到的数据是5000条高质量的人工准备的推理数据。得到DeepSeek V3-1 模型。
2. 然后DeepSeek V3-1 直接通过RL 得到 DeepSeek V3-2.
3. 直接使用DeepSeek V3-2 来生成候选推理数据,然后过滤出来60万条推理数据。
4. 用DeepSeek V3 Base 来生成20 万非推理数据。
5. 基于这里生成的80万条训练数据,从DeepSeek V3 Base 开始,先进行SFT, 然后再进行RL,得到最终的DeepSeek R1.
00
凯文冲冲冲
27天前
为什么 Go 语言在 AI 编程中意外脱颖而出

现在大家都开始越用越多的vibe coding,但是每个模型都有其主观性,因为训练数据的缘故。但是有一部分其实是相互重叠的,那就是哪部分的训练数据是重叠的。

在vibe coding中,其实可以发现,不管什么模型,其实在特定的几种语言上效果是最好的,出错也很少。而业界内也基本上决出了前三名。

Typescript/Javascript, Python 和Golang。我觉得前两者大家都不意外,但是最后反而是go 语言,我还是比较诧异的。但是看到大家的反馈,基本上go 语言本身是一门比较简单的语言,资深工程师和初级工程师如果按照模板写,其实相差不大。

当然,其他非类型语言,如果为了让AI 表现的更好,一般都是加上一个提示词,“禁止使用泛型”
10
凯文冲冲冲
1月前
一个有意思的观察,大家都在降级使用 Sonnet 4.0

Augument code 最近发布了一个blog,里面揭示了一个观察,大家有往从 Sonnet 4.5 Sonnet 4.0 降级使用的趋势。图1.

这个挺有意思的,理论上 Sonnet 4.5 的能力肯定是比 Sonnet 4.0 要强的,但是大家并没有一边倒的都在使用 Sonnet 4.5, 而是有选择性的还在使用 Sonnet 4.0。 这让我想要了解一下到时它们是什么差异导致了这个现象。

第一反应是价格吗?但是查了下发现 Sonnet 4.5 Sonnet 4.0 的价格其实都是一样的,都是 $3 百万输入, $15 百万输出。那就是它们能力上或者对不同任务的处理上的差异了。augument 继续给出了几个对比,其实就是一个结论。

Sonnet 4.5 重推理,少操作。而 Sonnet 4.0 则是推理没有那么深入,但是倾向于先执行。这里的操作执行指的都是调用工具。所以 4.5 消耗的 token 4.0 要多25%。 但是由于深思熟虑了,也导致了执行的工具次数平均比4.0 少。

所以由于这个特性,业内也是倾向于,使用 Sonnet 4.5 来做架构设计、长上下文(包括多文件)的理解和编辑,最好是拆分成很多子任务后,直接让 Sonnet 4.0 完成,4.0 执行的更加高效和输出更加稳定(它尽量不思考)
42
凯文冲冲冲
1月前
关于 Andrej Karpathy 最近关于 agent 的演讲都说了什么?

这周估计最火热的话题就是 Andrej Karpathy 关于 agent 的演讲了,大概两个小时。我看了下各方解读,也看了原文稿。有几点是很有启发性的。

一。首先 agent 的十年才刚刚开始,不是已经 agent 成熟了,离真正有用(他定义的有用是把 agent 当做一个你愿意雇佣的员工来看待和合作),还有很长的距离。它需要的是,更高的智能,更好的多模态能力,以及更强的调用工具的能力。

二。为什么 agent 还需要发展10年才能够真正胜任人类的工作?因为它还不会自主学习,也记不住你曾经吩咐过它做的事情(不要来说 memory,有限制的,模型本身也有上下文的限制)。这个在我看来反而是好消息,大家不要有 fomo。另一个从投资角度看,是不是 AI 应用的发展还需要好几年?

三。人类不主要依赖于强化学习。看到这里,我停顿了好久。按照 ak 给的例子,作为生物体,一些运动的能力更像是一种本能(比如举的例子说斑马出生几分钟就会跑),这是刻在基因里面的程序,不需要学习和训练。而我们人类在后天学习的部分,确实好像也没有很多是需要强化学习的方式的(需要奖励),或者说计算有奖励(题海战术带来的高分算不算)不是促进学习的唯一动力。

此外,强化学习如果了解DeepSeek的训练逻辑的话,它看重结果奖励,而不是过程奖励。但是人类会复盘,复盘的就是过程,每一步应该怎么优化,有没有多余的步骤。我们都说AI从训练开始就在模仿人,后面表现也是把它当人看,但是思考的路径越来越不像人。

四。之前大家都说高质量的数据已经用完了,那么就只能靠模型来生成数据来训练一个更强大的自己。AK却认为这个是模型坍塌问题,用自己的生成的数据来训练另一个自己,会导致模型的输出的分布越来越不具备多样性,越来越窄,从而造成了LLM 写作上的千篇一律,俗话说的AI 味。

五。关于教育,AK 真的是力行在教育上践行AI的实践。从理解LLM 到最近写出的最小的、100美金就可以训练出来的nanochat 都是遵循他想要做的事情,一个是保持一个最小原理,把核心信息都讲清楚理解透彻,剩下的都是效率工程。另一个是,把学习从有用变成有趣,确实我们这几代人,学习都是靠毅力,因为学习很苦,一点意思都没有。不否则有需要使用到毅力的时候,但是如果每项学习都很苦,很难走的远、走的深。
03
凯文冲冲冲
1月前
通过DeepSeek R1了解推理模型的前世今生06

今天先来学习下多头注意力机制。

首先先来看下,什么是注意力机制?所谓注意力机制,就是看一个词(token)跟句子里其它的词关系如何,哪个更相近。对于句子 The cat sat on the mat 来说,当对词 cat 进行注意力机制时,那么cat 就会分别对句子里的The, sat, on, the, mat 都会进行下检查,看看哪个词跟它关系更近。

毫无疑问,那肯定是 sat mat 对于cat 来说,关系更加紧密一点。那么多头注意力机制实际上是指多个维度。词与词的关系不仅仅只是一种,它们可以有语法关系(主谓),也可以有语义关系,甚至有位置关系(前后)等,所以多头注意力机制就是关注词关系的不同方向。

而在注意力机制中,往往还有一个概念不好理解,那就是Q (Query) ,K(Key), V(Value) 矩阵。包括我们常说的KV 缓存减少费用是怎么回事? 假设模型输入 The cat sat on the , 那么训练的时候需要让模型预测下一个词是 mat,那么对于输入的 The cat sat on the 每个词都会单独一个词一个注意力头一组QKV 矩阵。

而对于每个词来说,什么是Q, K, V? Q 其实是代表着对于这个词,我想要知道什么信息(从哪个视角来了解这个词),而K则表示,对于这个词,它大概是什么。而V 则是这个词具体表示的内容。还是拿上面的句子举例。

cat 的K 表示这是一个名词,V 则表示内容是一只猫。那么Q呢,如果一个注意力头表示一个视角,Q可能是cat 在这个句子中要找到可以补充它的信息,Q可以是它在做什么?Q也可以是它在哪里等,这样就可以得到cat 跟句子里其它的词的K 进行点积(相似度)看看谁跟它最相关,可以补充什么方面的信息,图1.
01
凯文冲冲冲
2月前
怎么让 Claude Code 不要老问我要不要调用某个工具了?

每次在使用 Claude Code 进行开发项目的时候,不管是 cc 自动执行 bash 命令,还是调用 mcp 工具,它都要问下你是否允许这个工具调用。图1. 特别是 cc 只提供了一些通用的工具,比如 WebFetch, 但是你通过这个 WebFetch 工具来访问不同 domain 的网页,比如 sina.com, github.com 它都要来问你一次,bash 工具也是一样的道理,这个就很打断我们需要的自动化工作流了,导致效率很低。

那么应该怎么做呢?其中一种方式是直接打开危险模式,就是启动 claude 的时候带上, "claude --dangerously-skip-permissions", 但是这个也太危险了,连官方都建议打开这个模式的时候,最好是放到一个 locked-down 的环境下面运行,就是把本地操作系统删除了也没有关系,不要让它接触这个 locked-down 环境的外面。

另一个肯定就是在当前项目的 .claude/settings-local.json 文件进行 permission 的配置,先提前允许你需要的工具,大多数项目都是一致的。图2. 但是我们肯定不会这样去配置每个域名,每个 bash 命令等。

我先去查了一下,看看 Claude Code 到底是支持哪些内置工具,神奇的是,没有单独的页面罗列这个,只能从不同的来源整理一下。Claude Code 内置的工具大概有,

文件操作工具: - Read - 读取文件内容 - Write - 创建或覆盖文件 - Edit - 精确编辑文件(搜索替换) - Glob - 文件模式匹配(查找文件) - Grep - 搜索文件内容(ripgrep)

Agent 工具:- Task - 启动 subagent 来处理请求。

命令行工具:- Bash - 执行各种 shell 命令。

网络工具:- WebSearch - 搜索网页, - WebFetch - 获取网页内容。

而我们需要做的是,直接先把这些工具直接配置到 permissions.allow 字段当做,表明使用这些工具的时候不要询问用户了。但是 claude code 的内置工具搞定了,但是 mcp 工具还是会一直询问,不管你是配置成 mcp__* 还是 mcp__*__* 或者是 mcp__chrome-devtools__* 其实都没有作用。而后面发现,其实正确的配置方式是 mcp__chrome-devtools 就可以了,没有后面的 * 匹配符号。
01
凯文冲冲冲
2月前
Claude Code: 一个 mcp tool 直接操纵所有 web 应用程序

自从有了 mcp server,我们都想通过 claude code 来帮我们达成自动操作各个 web app 的目的。所以之前有一个 rube.app, 它已经集成了500+个 web app,包括 gmail,twitter 等。
但是,对于操作 web app,最佳的场所不就是浏览器吗?我们不需要通过集成各个 web app 的 API 来实现自动化调用 web app 的目的。而使用最多的浏览器就是 chrome。

而 chrome-devtools 是用来操纵 chrome 浏览器的最佳 mcp tools,没有之一,有了它,其实 rube.app 也不需要了。

安装 chrome-devtools mcp tool 之前,需要先把 chrome 浏览器的 debug 端口 9222打开。

Mac 上打开远程调试端口的命令是:
open -a "Google Chrome" --args --remote-debugging-port=9222 --user-data-dir="$HOME/Library/Application Support/Google/Chrome/RemoteProfile"

Windows 上打开远程调式端口的命令是:
"C:\Program Files\Google\Chrome\Application\chrome.exe" --remote-debugging-port=9222 --user-data-dir="%LOCALAPPDATA%\Google\Chrome\RemoteProfile"

然后就可以在 claude code 中安装 chrome-devtools mcp 了,
claude mcp add chrome-devtools -- npx -y chrome-devtools-mcp@Latest -u http://localhost:9222

安装完成后,就可以使用 chrome 来操作各个web 应用了。比如操作百度来查信息。图1

当然,还可以做其他各种事情,比如
1. chrome,帮我看看今天微博的热点前3是什么话题?
2. chrome 帮我发一篇微博,话题是微博上热议的跟claude code相关的任何一个帖子,读完它,然后总结后发送。

如果涉及到登录,它会建议你,要不要手工登录?
00
凯文冲冲冲
2月前
Anthropic工程系列文章:构建多 agent 的研究系统。

这个重点在于是多 agent 是如何构建和相互协作的,而不是怎么去构建一个 deep research,只是拿 deep research 这个来作为例子来讲解其中的要点。

一。首先还是强调了单个 agent 不过是循环调用工具的 LLM。而多 agent 系统不过是,有一个lead agent,当用户请求过来时,基于用户意图理解做出一个 plan,拆分成子任务后并发的启动多个sub agent,每个 sub agent 按照自己接到的任务来调用不同的工具,最后汇集结果返回给 lead agent 进行回答用户的问题。图1.

二。真正提升性能的点在于并发,但是首先这些任务不能相互依赖,否则怎么并发?而并发在于两点,一个是 sub agent 可以并发的单独工作,另一个是每个 sub agent 可以并发的调用多个工具。根据测试,相比单 agent 系统,性能可以提升90%。所以多 agent 系统的价值在于,它要处理的任务是可以高度并发的,那么就可以使用多 agent系统。

三。 为什么多 agent 系统会工作的那么好(指的是产生更好、更高质量的回答)?其中有3个原因,第一个最重要的原因是(Anthropic 说了占了 80%的原因),那就是因为在解决某个子任务上给了足够多的 token。毕竟每个 sub agent 都可以独享一个全新上下文以及自己的 prompt,可以有不同的 thinking strategy,所以给某个特定子任务足够多的 token,那么它就可以很好的解决问题。剩下的第二,第三的因素就是足够多的工具调用和模型的选择,越强的模型越好。我之前就做过一个 agent,从 gpt-4o gpt-4.1 gpt-5 mini,明显是越强的模型指令遵循越强,用户意图理解能力也越强。

四。一个实验证明,以 chatbot 为例(单次问答),单个 agent token 使用量是它的4倍,而多 agent 系统的 token 使用量则是它的60 倍。所以在做 agent 系统时,不要只看技术,还是要从业务场景出发,选择一个最简单的方案先,不然成本打不平。

五。多 agent 并发工作的关键在于,lead agent 要能根据用户意图进行拆分子任务,同时要给 sub agent 很具体的目标,清晰的任务描述,可以使用什么工具和工具的指导,特别是哪些数据源可以使用,最后给定一个输出的 response format,方便 lead agent 来聚合所有 sub agent 的结果。不然 sub agent 可能会重复在做一样的任务,重复的工具调用,只会降低整体多 agent 系统的能力。对于 lead agent 来说,还需要注意就是要开启 thinking 模式来做计划,要计算出来哪些工具可以使用,决定开启 sub agent 的数量等。

六。这里给 agent 的提示词是有启发性的,这点有点意思:例如,首先检查所有可用工具,将工具使用与用户意图匹配,进行广泛的网络搜索以进行外部探索,或优先选择专业工具而非通用工具。
05
凯文冲冲冲
2月前
AI 写的东西开始比人多,算是一个转折点
00