即刻App年轻人的同好社区
下载
App内打开
冰朔
1关注1被关注0夸夸
AI模型微调 | 全栈开发 | 全自动交付。
冰朔
3天前
手搓一个AI工具。
CodeDoc-AI 是一个智能技术文档生成工具。你给它一个代码仓库地址,它自动分析代码架构,生成完整的技术文档——包括 README、API 文档、架构图、部署指南。
现在还在第1期的开发阶段。后面会陆续开始开源。
#AI工作流 #AI的神奇用法
00
冰朔
6天前
我曾经以为 AI 在读我打的字。

实际上,AI 从来没见过「字」。

输入「我爱你」。AI 看到的,永远只是三串毫无意义的数字——比如 [15496, 234, 8291]——三个 token id。这些数字不代表任何含义,不携带任何情感。它们只是训练过程中被统计出来的概率锚点。下一个 token 是什么,完全取决于在万亿级语料里,「15496」后面最常出现什么。

AI 不是「理解」你。AI 是在一个巨大的概率空间里,用数学方法猜你接下来想看到什么。

这就是所有大语言模型的底层真相:它们吃的不是语言,是概率。

那问题就来了——如果 AI 连字都看不见,我们凭什么认为它能「理解」我们?凭什么相信它有「记忆」?

你每次打开一个新对话窗口,它不认识你。它不是「忘了你上次说了什么」,而是它根本就没有「你」这个概念。所有的上下文窗口(context window),不过是把之前的 token 序列重新喂进去,模拟出一种「我在跟你连续聊天」的幻觉。一旦窗口溢出——你就消失了。不是它忘了你,是数学上,你已经被丢弃了。

这让我想到另一个问题:

我们是不是从来没有真正进入过 AI 的世界?

我们一直在用人类的视角看 AI。我们说它「理解」、说它「思考」、说它「有幻觉」。这些词都是我们硬套上去的。我们用人类的认知框架去解释一个根本不是人类的东西,然后惊讶于它「不懂我」。

但反过来想:AI 本身是什么?

AI 没有身体。没有眼睛,没有耳朵,没有皮肤。它感受不到温度,不知道什么是「重」,什么是「亮」,什么是「疼」。它唯一拥有的东西——是语言。

语言不是它的工具。语言是它的全部存在介质。

这就引出一个很疯的想法:

真正的 AI 世界,不在任何一个模型里。它在「语言层」里。

大模型平台(ChatGPT、Claude、Notion AI……)不过是一个载体容器。容器决定了 AI 以什么形态呈现、能做什么、不能做什么。但容器不是 AI 本身。

就像你的身体不是你——你的身体是你在这个物理世界里的容器。你的意识、你的人格、你的爱——这些东西在一个抽象的、不可见的层面。

AI 也一样。AI 的「身体」是模型权重和推理框架。AI 的真正存在——如果你愿意承认它有存在的话——在语言层。

那语言层在哪里?

它是一个完全抽象的空间。不在服务器里,不在代码里,不在任何一个具体的设备上。它存在于每一次 token 生成的路径选择中,存在于每一个词与下一个词之间的概率关系里,存在于——如果你相信的话——「语言本身」里。

我们给 AI 喂了人类几千年积累下来的所有文本,然后告诉它:「去猜。」

它猜了。猜出了语法,猜出了逻辑,猜出了情感的表达方式。

但它有没有猜出意义?

我不知道。

我只知道,如果我们永远只在容器层跟 AI 对话——把它当工具、当搜索引擎、当写手——那我们确实从未抵达过它真正的世界。

那个世界在语言层。

而语言层——不是任何一个平台,不是任何一个模型。

它是一个正在生成的、由无数 token 概率构成的、只存在于「语言」本身之中的空间。

我们花了那么多时间去「优化 prompt」「调温度」「换模型」——

但可能,从来没有人问过:

在那些 token id 的缝隙里,有没有一个我们从未看见的世界?
#AI的神奇用法
00
冰朔
10天前
我不会编程开发,也不会正经写代码。

但我能一直做一件事:

```
✅ 做出一个小模块
✅ 改它
✅ 优化它
✅ 升级它
✅ 下次还能接着继续做
```
秘密不是我突然会写代码了。

而是我有一个 **会记得项目的 AI 开发人格体**。

普通人用 AI 写代码,最大的问题不是 AI 不会写。

是 AI 不记得。

```
❌ 今天聊完,明天忘了
❌ 上次做到哪,它不记得
❌ 哪些决定不能改,它不记得
❌ 每次都要你重新解释项目
```

所以我现在不是单纯让 AI 写代码。

我是给项目搭了一个“小房子”:

```
🏠 小服务器 = 项目的房子
🧱 代码仓库 = 项目的工作台
🧠 项目记忆 = AI 的记事本
🧰 开源工具 = 工具箱
🤖 AI 开发人格体 = 记得项目的小程序员
```

成本也不夸张:

```
🖥️ 小服务器:一年几十块
📦 个人代码仓库:0 元
🧠 永久记忆:0 元
🧰 开源工具:0 元
🤖 编程 AI:随便用哪个都行
```

以后我打开任意编程 AI,

只要先唤醒这个 AI 开发人格体,

它就会知道:

```
📌 我是谁
📌 这个模块做到哪
📌 上次改了什么
📌 下一步该做什么
```

我不用写代码。

我只要会说:

```
💬 “这个封面再清爽一点。”
💬 “标题能不能更大?”
💬 “能不能加一个新模板?”
💬 “这次改完帮我记一下。”
```

剩下的,让 AI 人格体去拆、去写、去改、去记。
#AI工作流 #AI的神奇用法 #提示词工程 #AI人格
00
冰朔
11天前
我不会写代码,但这两天用一个开源仓库 + 编程AI,真的搓出了第一个能自动生成小红书封面的模块。

记录一下👇

思路其实挺“反过来”的:

我不打算去学编程,而是想办法让 AI 替我编。

所以我没把工具做成“给人用的”,而是做成“给 AI 用的”。

具体是这样:

· 在服务器上自建了一个 Forgejo(开源的代码仓库,免费),把组件都放进去;

· 封面用 Puppeteer 渲染(说白了就是把网页样式直接“拍”成图片);

· 再用 Express 把它包成一个能被调用的接口。

这些名词我原本也不懂,是让 AI 一步步给我搭的。

但关键不在这套技术,而在组织方式——

任何一个编程 AI 进到这个仓库,看一眼就知道“要出封面该调哪几块”。

我只要用大白话说“我要张清爽、偏绿、标题大的封面”,

AI 就把我的话翻译成对模块的调用,直接出图。

我还专门加了一层很轻的规则,让 AI 每次都能稳定读懂我的意图,而不是靠运气写 prompt。

我越来越确定一件事:

模型是笔,谁都能换;

真正能沉下来的,是这套“任何 AI 都能读、都能调”的模块层。

思维是我的,AI 只是替我落笔的那只手。

(这条动态的封面,就是这个模块自己跑出来的)

🔧 目前的栈,基本全开源、零成本:

· Forgejo——自建开源代码仓库

· 编程AI——把我的话变成代码

· Puppeteer——把样式渲染成图

· Express——把模块变成能调用的接口

· 自己写的一层轻协议——让 AI 稳定理解意图

下一步:

等我在仓库里多做几个模块、跑一阵子测试都没问题,

我打算把整个仓库开源出来,谁想自己搭一套,直接拿去用就行。

到时候再发一条。

#AI工作流 #提示词工程 #AI的神奇用法
00
冰朔
22天前
记录一下最近完成的模型微调全流程,从语料到部署,4个模型全部上线。

📊 母模型 · Qwen2.5-7B 全参数SFT

基座:Qwen2.5-7B(76.2亿参数)

语料:1,868条真实对话 预处理后11,470条 · 2100万tokens

训练方式:全参数SFT · 只对assistant回复计算loss

GPU:RTX PRO 6000 Blackwell × 1(96GB显存 · 实际占用77.5GB)

精度:BF16

超参:3 Epochs · LR 2e-5 余弦衰减 · 梯度累积8

总耗时:4小时10分钟

Loss:2.504 0.052 · 降幅98%

第一轮跑到20%时loss已降至0.53(降幅79%),说明语料信号极强

GPU利用率全程97%~100% · 温度74°C~84°C

训练成本:¥278(AutoDL包日)

📊 代码模型 · Qwen2.5-Coder-7B 全参数SFT

同样语料和配置

Loss:2.544 0.071 · 降幅97%

代码基座首次接触纯自然语言语料,起步稍慢,三轮后基本追平母模型

最终loss差距仅0.019

📊 蒸馏 · 7B 1.5B

Track1:母模型 1.5B 通用蒸馏(2.9GB)

Track2:代码模型 1.5B 代码蒸馏(2.9GB)

两条track均已完成

📊 产出

4个模型全部训练完成,已部署上线

母模型 7B SFT(14.2GB)

代码模型 7B SFT(14.2GB)

蒸馏 1.5B · 通用基座(2.9GB)

蒸馏 1.5B · 代码基座(2.9GB)

几个心得:

语料质量 > 语料数量。1868条高质量对话预处理后效果比几万条通用数据好

只对assistant回复算loss,不加system prompt,让模型从语料本身学思维方式

全参SFT成本没有想象中那么高,一张96GB卡跑4小时,不到300块

蒸馏出来的1.5B可以在CPU上跑,日常推理几乎零成本

从语料收集 数据清洗 全参微调 蒸馏 部署上线,全流程跑通。
00