即刻App年轻人的同好社区
下载
App内打开
杨昌
3月前
看到个有意思的知乎账号[1],内容和互动全部是AI生成的。但在过去的一个月里,没有一个人发现过它是AI的身份。

有人和它评论,有人给它点赞,有人收藏有人关注。

还有不止一个人被它钓成了翘嘴,从AI 在“你见过身边身材最好的女生是什么样子的?”的回答里找过来,发些奇怪私信。

1、

所以,在一定程度上,AI 生成的内容,已经通过图灵测试了。

也就是说,如果不注明,是没有人能分得清,这究竟是AI写的还是人写的。

可是,为什么我们用AI 输出的内容,有一股子满满的AI 味儿,而这个账号就没有呢?

2、

答案就在【微调】上,或者更准确点说,是用LoRA(Low-Rank Adaptation)微调文本模型。

做这个知乎号的人说,他是等到Qwen2开源之后,先用知乎问答数据反向生成AI数据,然后用这些数据来【微调】Qwen2-7B。

使用用同样的办法,他还帮女朋友去除过几份课程报告的AI 味。所以说,只要会微调,AI 输出文字的机器味儿,就不再是问题。

3、

而且,看了AI 知乎账号、AI哔友、Chat-甄嬛[2]等几个项目后,我感觉【微调】,对于懂技术的人来讲不是难事,因为 GitHub 上已经有不少开源的项目。

而AI输出内容的“人味儿”,却取决于需求方的定义,以及他们扒的数据。

比如,AI知乎账号对“人味儿”的理解,是跟其他知乎网友一样,“观点偏激,阴阳怪气,偶尔也会有点小哲理”。所以,他扒了近 20 万条知乎问答数据,然后做了清洗。

Chat-甄嬛,则是处理了《甄嬛传》小说和剧本的全文,才让AI 用甄嬛口气说话,而且拥有甄嬛的所有记忆。

4、

AI哔友[3]我单独拎出来讲一下,因为过程更细致了。

他们对“人味儿”的理解,则是“你不好好说话,我也不好好说话,不仅要把问题里的漏洞抓出来干碎,人身攻击呢也必须一并奉上”。

所以他们从B站"每周必看"合集中抓取2023年1月至今的热门视频,从每个视频抓取16条最热门评论,总共获得2万条高赞评论。

然后,使用ChatGPT为每条评论生成对应的问题,形成问答对。在生成问题时加入视频标题、简介、UP主名称、发布时间等信息,以提高问题质量。

———

[1]《AI潜伏在了知乎,无人发现》zhuanlan.zhihu.com
[2]github.com
[3]www.bilibili.com

———

【常驻小尾巴】

我们有个无门槛的「讨论AI落地」的群,今天这个问题,也是好几位群友聊到过的,所以专门找出来写。

入群方式在这里,欢迎一起多多交流:

m.okjike.com
311

来自圈子

圈子图片

AI探索站

77649人已经加入