即刻App年轻人的同好社区
下载
App内打开
别为馒头
116关注55被关注0夸夸
在校学生,兴趣广泛。
个人博客「一个小站」(ygxz.in)
频道「一个小站的自留地」(ygxz_in)
别为馒头
2月前
我感觉我是一个很幸福的开源作者。

CCH是我人生中第一个正式的开源项目,做了近半年,期间保持至少周更的迭代速度,积累了近2k star和近4w次下载,期间收获了很多感谢,也少不了很多批评。

作为一个定位团队级LLM路由网关的项目,CCH帮助很多团队和小企业解决了LLM供应商聚合路由和内部分发统计的问题。相比市面上的所有竞品,CCH提供了更为全面的成本管理能力和更专业的路由调度配置能力。

这是一个很专业的需求,但并不小众。

半年来,一个小站的讨论区成员突破500人,甚至包括外国友人,基于CCH构建的生态项目如余额管理、可用性面板等不断涌现,让CCH拥有了自己的生态。

我非常感激愿意参与贡献&参与讨论的朋友,我也能深切地感受到,被讨论本身就是对开源作者最大的激励。

虽然CCH长期接受赞助以平衡开发投入,但我坚持以MIT许可证完整开源。我认为,健康的开源项目就应当是作者吃饱饭、用户随心用、生态全开放。达成这一切免不了平衡不少利益,但很幸运,CCH做到了。

尽管今年还有很多很有意思的计划,但是我依然希望CCH继续走下去,努力做成一款专业好用的LLM路由网关。

这个项目位于:
claude-code-hub.app
希望对你有帮助。
00
别为馒头
3月前
这可能是第一个杀死比赛的国民级软件。

OpenClaw这几个月很火。在它只能在TG上顺畅使用的时候,就已经有很多人自发推荐;后来OpenClaw官方支持了飞书接入,但操作配置繁琐,即使按照官方教程,也需要近半小时才能完成接入,更别提没有技术背景的用户,可能折腾一整天都不一定能接入飞书。

QQ团队这次的做法非常激进,几乎是为一个开源项目单独适配了原本非常复杂的一整套流程,开放了原本第三方应用完全无法获得的自由度。实测文件收发、富文本显示都和tg的体验非常接近,已经完全可用。而且操作流程极其简单,最快三分钟就可以把机器人跑起来。

OpenClaw短期内有过热的趋势,但是我相信个人Agent的潜力只会越来越大。基础模型迭代的同时,广大用户也终将更深刻地体会到AI发展的红利。
10
别为馒头
4月前
昨天晚上几乎在一个小站的官方群聊内直播了 Anthropic OpenAI 的新模型发布过程,从昨晚到今天早上,群里基本上讨论不断。我也简单试用了一下发布的两个新模型,发现它们都蛮有特点:

1. Anthropic 发布的 Claude Opus 4.6
这是 Anthropic 第一次在 Opus 级别的模型上增加 1M Context的支持。但和前代模型(即 Sonnet 4.5)一样,这个长上下文的支持暂时对绝大多数 Pro/Max 用户是不可用的。根据 Anthropic 官方披露的大海捞针数据,Opus 4.6 相比前代模型,无论是在 200K 还是 1M 的上下文长度上,召回率都有了明显的进步。这可能表示 Anthropic 终于意识到了 Claude 模型原先在长上下文情况下容易出现力不从心的问题,并着手去修复它。

2. Claude Code 更新的研究团队功能
紧随 Opus 4.6 同步推出的还有 Claude Code 新更新的研究团队功能。该功能允许 Claude 在需要的时候,自动创建多个独立的 Claude Code 实例并进行团队化管理。
(a) 与原先的 Subagent 不同,这次创建的研究团队可以以并行实例的方式存在。
(b) 领导者和研究者之间可以进行互相的交流通信。
(c) 用户可以随时进入到执行者的实例中进行接管和操作。

这种灵活性是原先 Subagent 所不具备的。

然后再来说说 OpenAI 这边。

OpenAI Opus 4.6 发布后的几乎同一时间,端出了 GPT 5.3 Codex 版本。这是 OpenAI 非常罕见地先行发布一个模型的 Codex 版本,而没有发布其通用版本。这可能是因为 OpenAI 已经意识到了其通用版本(例如 GPT 5.2)在文字写作等编程以外领域的不足,并希望进行改进。

GPT 5.3 Codex 在发布之后,显著改善了前代存在的几个问题:

1. 效率提升
(a) 解决了输出慢和思考链过长导致的执行效率低的问题。
(b) 显著改善了推理的 TPS和思考链长度。
(c) Reasoning Effort 等于 "XHigh" 的情况下,5.3 Codex TPS 大约在 60-70 tokens/s,而前代大约在 30-40 tokens/s。

2. 思考质量
(a) 5.3 的思考时长明显更短。
(b) 至于思考质量是否有所降低,目前还不得而知,需要等待社区进一步的验证和评测。

3. 场景表现
(a) 根据官方披露的跑分数据,GPT 5.3 Codex 显著提升了 Terminal Bench 的成绩。
(b) 该模型在命令行调用(即 Agent 常见的本地环境操作场景)中有了极大幅度的提升,甚至一举碾压了 Anthropic 刚刚发布的 Opus 4.6 模型。
00
别为馒头
6月前
Kagi Search 用户现可通过点击搜索结果旁的盾牌图标,将网页、图像或视频举报为 AI 生成内容。
00
别为馒头
7月前
对不起 Arc,但我决定把 Default Browser 换成 Comet 一周,但搜索引擎依然是 Kagi

同时作为 Kagi Perplexity 的年会员,
看看这俩的配合能不能让查资料的过程提效那么一点吧 :)

如果有后续的话,朋友们应该能在年终总结之前看到一个小站的更新 (非 Flag
10
别为馒头
8月前
一个小站的所有文章依然坚持 0% AI 撰写;

一个小站的自留地发布的简讯依然会 100% 带有人工复核和参考链接

可靠、深入的 Fact Check 永远是所有内容创作者应该坚守的红线。

这一语言的互联网环境已经足够糟糕,
不容再有不负责任内容的污染了

熟AI_哔哩哔哩_bilibili

11
别为馒头
9月前
Gemini 2.5 Flash Image,图像生成和编辑领域的 SOTA。

这大概是第一个具备对真实物理世界理解的图像生成和编辑模型,它生成的大多数场景都是极度符合现实世界规律的。不愧是世界模型训练出来的东西。反正就是很强,是那种可能让人分辨不出的强。

然而我同样担心的是,虽然 Google 承诺会给图片打上盲水印,也不会开源这个模型,但是这个模型依旧很容易成为谎言和骗局的利器。

至少希望我家老人以后不会被骗子拿 AI 生成的我骗到。
00
别为馒头
9月前
终于有团队系统性研究这个问题了。

一个小站的自留地在 2024 5 月注意到这一问题以来,就多次在 OpenAI 相关的报道里提及这一点,也会将其作为识别模型是否由 OpenAI 推出的模型的一种验证手段。(OpenAI gpt-4o 时代起再没有公开更换过分词器词表)

这个问题在大多数日常场景下并不会触发,因为这些污染词元大都训练较少,若非上文输入中包含,大模型几乎不会主动吐出来。但一旦你确实需要用到这些词,那大模型就很有可能胡说。

最近有网友发现 DeepSeek V3.1 会在输出里夹杂“极”这个 Token,个人猜测有可能也和训练集或分词器设计有关。

至于问题出现的原因,文章里已经做了解释。以我多年互联网冲浪的经验,大概率是爬虫爬到了 xx 网站挂马或者爬取后二次发布的「内容农场」。这些网站大量复制正常网站的内容,并将其批量发布,通过 SEO 手段引导搜索引擎收录和用户点击。

https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg

10
别为馒头
10月前
喜欢你,想成为和你一样厉害的人
10
别为馒头
10月前
绝大多数时候,对面根本不关心 AI 产品用到了什么 AI,只关心是不是能点一下就看到一堆高大上的结果
10