即刻App年轻人的同好社区
下载
App内打开
杨昌
3月前
技术小白入门大模型微调,原来如此简单~

我和wildcard的客服人员,都挺有耐心的。我们一共换了3个卡号,换了3个 OpenAI 账号,花了两天时间。终于,充了 10 美元。

不过这些都不重要,重要的是,在等的过程中,我先用智谱glm-4-flash 微调了一下。

1、

才放了不到2000条的B站评论数据集,效果就已经比较明显了(图一)。

还是感谢GPT-4o mini 微调的免费,让我知道技术小白也是可以自己微调大模型的;

感谢智谱AI大模型开放平台,注册就送了10 多块钱的额度。才花了3块7毛钱的额度,训了不到 10 分钟,模型就微调好了(图二)。

2、

之前我一直以为微调的门槛老高了,直到今天测完才发现,真的是有手就行,有数据就行,比填写在线表格还简单。

唯一难的地方,可能在于数据集的获取和梳理。因为是测试,我就在网上找了别人的数据集。

印象中质量最高的,是UP主林亦的“AI哔友”,所以我找到了该项目的 GitHub(图三),直接把几个数据集给下下来了。

感兴趣的话,也可以从这里扒:github.com

3、

不过,林亦代码的格式,跟 OpenAI 和智谱要去的不一样。

于是我就用 Excel 的公式,把里面的数据给提取了出来(图四)。接着,再用 Excel 的公式,组装成符合要求的格式。

这些公式,我也是拿着代码让 Claude 帮忙写的,没有一次性成功,重新让它一步一步来才改好。

4、

为什么一定要提这一档子,是因为我发现:

只要会和AI 一起用 Excel,那么市面上很多的数据集,都可以为我所用,完全不用自己一条一条去爬。

举个例子,之前很多群友跟我说,他们做 SEO 时候,总觉得AI 生成内容机器味儿过浓。

那么这个时候,他们就可以用别人抓取reads.alibaba.com 网站上13个分类领域3000+个页面形成的数据集:github.com

———

流量玩家学会微调之后,“找-抄-超”又能更快一步了。

最近,我还发现了篇中国科学院大学AI 生成小说的论文,据说效果已经接近人类写手的水平。

里面也有用到微调等技术,完整实现了超长文本的“找-抄-超”。

等我有时间了,深度解析和实践一下这篇论文,敬请期待。
1967

来自圈子

圈子图片

AI探索站

77463人已经加入