即刻App年轻人的同好社区
下载
App内打开
别为馒头
116关注57被关注0夸夸
在校学生,兴趣广泛。
个人博客「一个小站」(ygxz.in)
频道「一个小站的自留地」(ygxz_in)
别为馒头
1月前
Kagi Search 用户现可通过点击搜索结果旁的盾牌图标,将网页、图像或视频举报为 AI 生成内容。
00
别为馒头
2月前
对不起 Arc,但我决定把 Default Browser 换成 Comet 一周,但搜索引擎依然是 Kagi

同时作为 Kagi Perplexity 的年会员,
看看这俩的配合能不能让查资料的过程提效那么一点吧 :)

如果有后续的话,朋友们应该能在年终总结之前看到一个小站的更新 (非 Flag
10
别为馒头
2月前
一个小站的所有文章依然坚持 0% AI 撰写;

一个小站的自留地发布的简讯依然会 100% 带有人工复核和参考链接

可靠、深入的 Fact Check 永远是所有内容创作者应该坚守的红线。

这一语言的互联网环境已经足够糟糕,
不容再有不负责任内容的污染了

熟AI_哔哩哔哩_bilibili

11
别为馒头
4月前
Gemini 2.5 Flash Image,图像生成和编辑领域的 SOTA。

这大概是第一个具备对真实物理世界理解的图像生成和编辑模型,它生成的大多数场景都是极度符合现实世界规律的。不愧是世界模型训练出来的东西。反正就是很强,是那种可能让人分辨不出的强。

然而我同样担心的是,虽然 Google 承诺会给图片打上盲水印,也不会开源这个模型,但是这个模型依旧很容易成为谎言和骗局的利器。

至少希望我家老人以后不会被骗子拿 AI 生成的我骗到。
00
别为馒头
4月前
终于有团队系统性研究这个问题了。

一个小站的自留地在 2024 5 月注意到这一问题以来,就多次在 OpenAI 相关的报道里提及这一点,也会将其作为识别模型是否由 OpenAI 推出的模型的一种验证手段。(OpenAI gpt-4o 时代起再没有公开更换过分词器词表)

这个问题在大多数日常场景下并不会触发,因为这些污染词元大都训练较少,若非上文输入中包含,大模型几乎不会主动吐出来。但一旦你确实需要用到这些词,那大模型就很有可能胡说。

最近有网友发现 DeepSeek V3.1 会在输出里夹杂“极”这个 Token,个人猜测有可能也和训练集或分词器设计有关。

至于问题出现的原因,文章里已经做了解释。以我多年互联网冲浪的经验,大概率是爬虫爬到了 xx 网站挂马或者爬取后二次发布的「内容农场」。这些网站大量复制正常网站的内容,并将其批量发布,通过 SEO 手段引导搜索引擎收录和用户点击。

https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg

10
别为馒头
4月前
喜欢你,想成为和你一样厉害的人
10
别为馒头
4月前
绝大多数时候,对面根本不关心 AI 产品用到了什么 AI,只关心是不是能点一下就看到一堆高大上的结果
10
别为馒头
4月前
Anthropic 宣布,Claude 4 Sonnet 将在未来几周内支持 1M Tokens 上下文窗口,是现在的五倍。

AI 编程的可能性又被拓展了。
00
别为馒头
5月前
OpenAI 的草台班子包括但不限于

发布会 PPT 图表画错(甚至两处)
发布会刚开官网就崩了
合作伙伴 Azure 提供的模型训练知识截止时间有 24/05 25/06 两个版本(我估计后者更可信)

ChatGPT 是灰度推的,一天内会 GA 全套 GPT-5 模型,包括免费用户。

YGXZ API 正在和上游合作,明天上班之前就会上线 API ,依然作为公益模型。
10
别为馒头
5月前
Anthropic 发布 Claude Opus 4.1,会员立即可用,并可在 Claude Code 中调用。
Anthropic 还宣布,会在未来几周继续升级现有模型。
00