别为馒头的个人主页

即刻App年轻人的同好社区

下载

App内打开

别为馒头

116关注57被关注0夸夸

在校学生，兴趣广泛。
个人博客「一个小站」（ygxz.in）
频道「一个小站的自留地」（ygxz_in）

别为馒头

1月前

Kagi Search 用户现可通过点击搜索结果旁的盾牌图标，将网页、图像或视频举报为 AI 生成内容。

2 00

别为馒头

2月前

对不起 Arc，但我决定把 Default Browser 换成 Comet 一周，但搜索引擎依然是 Kagi

同时作为 Kagi 和 Perplexity 的年会员，
看看这俩的配合能不能让查资料的过程提效那么一点吧：）

如果有后续的话，朋友们应该能在年终总结之前看到一个小站的更新 (非 Flag

4 10

别为馒头

2月前

一个小站的所有文章依然坚持 0% AI 撰写；

一个小站的自留地发布的简讯依然会 100% 带有人工复核和参考链接

可靠、深入的 Fact Check 永远是所有内容创作者应该坚守的红线。

这一语言的互联网环境已经足够糟糕，
不容再有不负责任内容的污染了

熟AI_哔哩哔哩_bilibili

1 11

别为馒头

4月前

Gemini 2.5 Flash Image，图像生成和编辑领域的 SOTA。

这大概是第一个具备对真实物理世界理解的图像生成和编辑模型，它生成的大多数场景都是极度符合现实世界规律的。不愧是世界模型训练出来的东西。反正就是很强，是那种可能让人分辨不出的强。

然而我同样担心的是，虽然 Google 承诺会给图片打上盲水印，也不会开源这个模型，但是这个模型依旧很容易成为谎言和骗局的利器。

至少希望我家老人以后不会被骗子拿 AI 生成的我骗到。

2 00

别为馒头

4月前

终于有团队系统性研究这个问题了。

一个小站的自留地在 2024 年 5 月注意到这一问题以来，就多次在 OpenAI 相关的报道里提及这一点，也会将其作为识别模型是否由 OpenAI 推出的模型的一种验证手段。（OpenAI 自 gpt-4o 时代起再没有公开更换过分词器词表）

这个问题在大多数日常场景下并不会触发，因为这些污染词元大都训练较少，若非上文输入中包含，大模型几乎不会主动吐出来。但一旦你确实需要用到这些词，那大模型就很有可能胡说。

最近有网友发现 DeepSeek V3.1 会在输出里夹杂“极”这个 Token，个人猜测有可能也和训练集或分词器设计有关。

至于问题出现的原因，文章里已经做了解释。以我多年互联网冲浪的经验，大概率是爬虫爬到了 xx 网站挂马或者爬取后二次发布的「内容农场」。这些网站大量复制正常网站的内容，并将其批量发布，通过 SEO 手段引导搜索引擎收录和用户点击。

https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg

1 10

别为馒头

4月前

喜欢你，想成为和你一样厉害的人

2 10

别为馒头

4月前

绝大多数时候，对面根本不关心 AI 产品用到了什么 AI，只关心是不是能点一下就看到一堆高大上的结果

5 10

别为馒头

4月前

Anthropic 宣布，Claude 4 Sonnet 将在未来几周内支持 1M Tokens 上下文窗口，是现在的五倍。

AI 编程的可能性又被拓展了。

4 00

别为馒头

5月前

OpenAI 的草台班子包括但不限于

发布会 PPT 图表画错（甚至两处）
发布会刚开官网就崩了
合作伙伴 Azure 提供的模型训练知识截止时间有 24/05 和 25/06 两个版本（我估计后者更可信）

ChatGPT 是灰度推的，一天内会 GA 全套 GPT-5 模型，包括免费用户。

YGXZ API 正在和上游合作，明天上班之前就会上线 API ，依然作为公益模型。

0 10

别为馒头

5月前

Anthropic 发布 Claude Opus 4.1，会员立即可用，并可在 Claude Code 中调用。
Anthropic 还宣布，会在未来几周继续升级现有模型。

0 00