看到个有意思的知乎账号[1],内容和互动全部是AI生成的。但在过去的一个月里,没有一个人发现过它是AI的身份。
有人和它评论,有人给它点赞,有人收藏有人关注。
还有不止一个人被它钓成了翘嘴,从AI 在“你见过身边身材最好的女生是什么样子的?”的回答里找过来,发些奇怪私信。
1、
所以,在一定程度上,AI 生成的内容,已经通过图灵测试了。
也就是说,如果不注明,是没有人能分得清,这究竟是AI写的还是人写的。
可是,为什么我们用AI 输出的内容,有一股子满满的AI 味儿,而这个账号就没有呢?
2、
答案就在【微调】上,或者更准确点说,是用LoRA(Low-Rank Adaptation)微调文本模型。
做这个知乎号的人说,他是等到Qwen2开源之后,先用知乎问答数据反向生成AI数据,然后用这些数据来【微调】Qwen2-7B。
使用用同样的办法,他还帮女朋友去除过几份课程报告的AI 味。所以说,只要会微调,AI 输出文字的机器味儿,就不再是问题。
3、
而且,看了AI 知乎账号、AI哔友、Chat-甄嬛[2]等几个项目后,我感觉【微调】,对于懂技术的人来讲不是难事,因为 GitHub 上已经有不少开源的项目。
而AI输出内容的“人味儿”,却取决于需求方的定义,以及他们扒的数据。
比如,AI知乎账号对“人味儿”的理解,是跟其他知乎网友一样,“观点偏激,阴阳怪气,偶尔也会有点小哲理”。所以,他扒了近 20 万条知乎问答数据,然后做了清洗。
Chat-甄嬛,则是处理了《甄嬛传》小说和剧本的全文,才让AI 用甄嬛口气说话,而且拥有甄嬛的所有记忆。
4、
AI哔友[3]我单独拎出来讲一下,因为过程更细致了。
他们对“人味儿”的理解,则是“你不好好说话,我也不好好说话,不仅要把问题里的漏洞抓出来干碎,人身攻击呢也必须一并奉上”。
所以他们从B站"每周必看"合集中抓取2023年1月至今的热门视频,从每个视频抓取16条最热门评论,总共获得2万条高赞评论。
然后,使用ChatGPT为每条评论生成对应的问题,形成问答对。在生成问题时加入视频标题、简介、UP主名称、发布时间等信息,以提高问题质量。
———
[1]《AI潜伏在了知乎,无人发现》
zhuanlan.zhihu.com[2]
github.com[3]
www.bilibili.com———
【常驻小尾巴】
我们有个无门槛的「讨论AI落地」的群,今天这个问题,也是好几位群友聊到过的,所以专门找出来写。
入群方式在这里,欢迎一起多多交流:
m.okjike.com