看到个有意思的知乎账号[1]，内容和互动全部是AI生成的。但

即刻App年轻人的同好社区

下载

杨昌

2年前

看到个有意思的知乎账号[1]，内容和互动全部是AI生成的。但在过去的一个月里，没有一个人发现过它是AI的身份。

有人和它评论，有人给它点赞，有人收藏有人关注。

还有不止一个人被它钓成了翘嘴，从AI 在“你见过身边身材最好的女生是什么样子的？”的回答里找过来，发些奇怪私信。

1、

所以，在一定程度上，AI 生成的内容，已经通过图灵测试了。

也就是说，如果不注明，是没有人能分得清，这究竟是AI写的还是人写的。

可是，为什么我们用AI 输出的内容，有一股子满满的AI 味儿，而这个账号就没有呢？

2、

答案就在【微调】上，或者更准确点说，是用LoRA（Low-Rank Adaptation）微调文本模型。

做这个知乎号的人说，他是等到Qwen2开源之后，先用知乎问答数据反向生成AI数据，然后用这些数据来【微调】Qwen2-7B。

使用用同样的办法，他还帮女朋友去除过几份课程报告的AI 味。所以说，只要会微调，AI 输出文字的机器味儿，就不再是问题。

3、

而且，看了AI 知乎账号、AI哔友、Chat-甄嬛[2]等几个项目后，我感觉【微调】，对于懂技术的人来讲不是难事，因为 GitHub 上已经有不少开源的项目。

而AI输出内容的“人味儿”，却取决于需求方的定义，以及他们扒的数据。

比如，AI知乎账号对“人味儿”的理解，是跟其他知乎网友一样，“观点偏激，阴阳怪气，偶尔也会有点小哲理”。所以，他扒了近 20 万条知乎问答数据，然后做了清洗。

Chat-甄嬛，则是处理了《甄嬛传》小说和剧本的全文，才让AI 用甄嬛口气说话，而且拥有甄嬛的所有记忆。

4、

AI哔友[3]我单独拎出来讲一下，因为过程更细致了。

他们对“人味儿”的理解，则是“你不好好说话，我也不好好说话，不仅要把问题里的漏洞抓出来干碎，人身攻击呢也必须一并奉上”。

所以他们从B站"每周必看"合集中抓取2023年1月至今的热门视频，从每个视频抓取16条最热门评论,总共获得2万条高赞评论。

然后，使用ChatGPT为每条评论生成对应的问题,形成问答对。在生成问题时加入视频标题、简介、UP主名称、发布时间等信息,以提高问题质量。

———

[1]《AI潜伏在了知乎，无人发现》zhuanlan.zhihu.com
[2]github.com
[3]www.bilibili.com

———

【常驻小尾巴】

我们有个无门槛的「讨论AI落地」的群，今天这个问题，也是好几位群友聊到过的，所以专门找出来写。

入群方式在这里，欢迎一起多多交流：

m.okjike.com

32 312

来自圈子

AI探索站

116618人已经加入