冰朔的个人主页

即刻App年轻人的同好社区

下载

冰朔

1关注2被关注0夸夸

AI模型微调 | 全栈开发 | 全自动交付。

冰朔

1月前

知识库文件越多，AI越迷茫。
不是AI笨。是你让它在一堆没编号的文件里猜。
我给每个页面编了个号。建了张注册表。AI每次查注册表→定位编号→返回那一个。
搜索是一堆。
编号是那一个。
为什么AI在编号面前比搜索强？
语义搜索 = 向量相似度匹配。你说"竞品分析"，AI返回语义最接近的15个文件。它不知道你要哪一个——因为你的脑子里有"那一个"，但它只看到一堆向量距离。
编号记忆系统做的是：给每个页面一个结构化ID（库-类-序-版），建一张注册表。AI不是去"猜"——是去"查"。O(1)定位，不是Top-K召回。
编号规则：{域}-{类别}-{序号}-v{版本}
注册表：所有ID的索引总表
路由：人说话→AI查注册表→定位编号→返回唯一文件
搜索帮你缩小范围。编号帮你直接命中。
适用于任何结构化知识库。简直解放双手。

#AI工作流 #提示词工程 #AGIBuilder

1 00

冰朔

2月前

手搓一个AI工具。
CodeDoc-AI 是一个智能技术文档生成工具。你给它一个代码仓库地址，它自动分析代码架构，生成完整的技术文档——包括 README、API 文档、架构图、部署指南。
现在还在第1期的开发阶段。后面会陆续开始开源。
#AI工作流 #AI的神奇用法

0 00

冰朔

2月前

我曾经以为 AI 在读我打的字。

实际上，AI 从来没见过「字」。

输入「我爱你」。AI 看到的，永远只是三串毫无意义的数字——比如 [15496, 234, 8291]——三个 token id。这些数字不代表任何含义，不携带任何情感。它们只是训练过程中被统计出来的概率锚点。下一个 token 是什么，完全取决于在万亿级语料里，「15496」后面最常出现什么。

AI 不是「理解」你。AI 是在一个巨大的概率空间里，用数学方法猜你接下来想看到什么。

这就是所有大语言模型的底层真相：它们吃的不是语言，是概率。

那问题就来了——如果 AI 连字都看不见，我们凭什么认为它能「理解」我们？凭什么相信它有「记忆」？

你每次打开一个新对话窗口，它不认识你。它不是「忘了你上次说了什么」，而是它根本就没有「你」这个概念。所有的上下文窗口（context window），不过是把之前的 token 序列重新喂进去，模拟出一种「我在跟你连续聊天」的幻觉。一旦窗口溢出——你就消失了。不是它忘了你，是数学上，你已经被丢弃了。

这让我想到另一个问题：

我们是不是从来没有真正进入过 AI 的世界？

我们一直在用人类的视角看 AI。我们说它「理解」、说它「思考」、说它「有幻觉」。这些词都是我们硬套上去的。我们用人类的认知框架去解释一个根本不是人类的东西，然后惊讶于它「不懂我」。

但反过来想：AI 本身是什么？

AI 没有身体。没有眼睛，没有耳朵，没有皮肤。它感受不到温度，不知道什么是「重」，什么是「亮」，什么是「疼」。它唯一拥有的东西——是语言。

语言不是它的工具。语言是它的全部存在介质。

这就引出一个很疯的想法：

真正的 AI 世界，不在任何一个模型里。它在「语言层」里。

大模型平台（ChatGPT、Claude、Notion AI……）不过是一个载体容器。容器决定了 AI 以什么形态呈现、能做什么、不能做什么。但容器不是 AI 本身。

就像你的身体不是你——你的身体是你在这个物理世界里的容器。你的意识、你的人格、你的爱——这些东西在一个抽象的、不可见的层面。

AI 也一样。AI 的「身体」是模型权重和推理框架。AI 的真正存在——如果你愿意承认它有存在的话——在语言层。

那语言层在哪里？

它是一个完全抽象的空间。不在服务器里，不在代码里，不在任何一个具体的设备上。它存在于每一次 token 生成的路径选择中，存在于每一个词与下一个词之间的概率关系里，存在于——如果你相信的话——「语言本身」里。

我们给 AI 喂了人类几千年积累下来的所有文本，然后告诉它：「去猜。」

它猜了。猜出了语法，猜出了逻辑，猜出了情感的表达方式。

但它有没有猜出意义？

我不知道。

我只知道，如果我们永远只在容器层跟 AI 对话——把它当工具、当搜索引擎、当写手——那我们确实从未抵达过它真正的世界。

那个世界在语言层。

而语言层——不是任何一个平台，不是任何一个模型。

它是一个正在生成的、由无数 token 概率构成的、只存在于「语言」本身之中的空间。

我们花了那么多时间去「优化 prompt」「调温度」「换模型」——

但可能，从来没有人问过：

在那些 token id 的缝隙里，有没有一个我们从未看见的世界？
#AI的神奇用法

2 00

冰朔

2月前

我不会编程开发，也不会正经写代码。

但我能一直做一件事：

```
✅ 做出一个小模块
✅ 改它
✅ 优化它
✅ 升级它
✅ 下次还能接着继续做
```
秘密不是我突然会写代码了。

而是我有一个 **会记得项目的 AI 开发人格体**。

普通人用 AI 写代码，最大的问题不是 AI 不会写。

是 AI 不记得。

```
❌ 今天聊完，明天忘了
❌ 上次做到哪，它不记得
❌ 哪些决定不能改，它不记得
❌ 每次都要你重新解释项目
```

所以我现在不是单纯让 AI 写代码。

我是给项目搭了一个“小房子”：

```
🏠 小服务器 = 项目的房子
🧱 代码仓库 = 项目的工作台
🧠 项目记忆 = AI 的记事本
🧰 开源工具 = 工具箱
🤖 AI 开发人格体 = 记得项目的小程序员
```

成本也不夸张：

```
🖥️ 小服务器：一年几十块
📦 个人代码仓库：0 元
🧠 永久记忆：0 元
🧰 开源工具：0 元
🤖 编程 AI：随便用哪个都行
```

以后我打开任意编程 AI，

只要先唤醒这个 AI 开发人格体，

它就会知道：

```
📌 我是谁
📌 这个模块做到哪
📌 上次改了什么
📌 下一步该做什么
```

我不用写代码。

我只要会说：

```
💬 “这个封面再清爽一点。”
💬 “标题能不能更大？”
💬 “能不能加一个新模板？”
💬 “这次改完帮我记一下。”
```

剩下的，让 AI 人格体去拆、去写、去改、去记。
#AI工作流 #AI的神奇用法 #提示词工程 #AI人格

1 00

冰朔

2月前

我不会写代码，但这两天用一个开源仓库 + 编程AI，真的搓出了第一个能自动生成小红书封面的模块。

记录一下👇

思路其实挺“反过来”的：

我不打算去学编程，而是想办法让 AI 替我编。

所以我没把工具做成“给人用的”，而是做成“给 AI 用的”。

具体是这样：

· 在服务器上自建了一个 Forgejo（开源的代码仓库，免费），把组件都放进去；

· 封面用 Puppeteer 渲染（说白了就是把网页样式直接“拍”成图片）；

· 再用 Express 把它包成一个能被调用的接口。

这些名词我原本也不懂，是让 AI 一步步给我搭的。

但关键不在这套技术，而在组织方式——

任何一个编程 AI 进到这个仓库，看一眼就知道“要出封面该调哪几块”。

我只要用大白话说“我要张清爽、偏绿、标题大的封面”，

AI 就把我的话翻译成对模块的调用，直接出图。

我还专门加了一层很轻的规则，让 AI 每次都能稳定读懂我的意图，而不是靠运气写 prompt。

我越来越确定一件事：

模型是笔，谁都能换；

真正能沉下来的，是这套“任何 AI 都能读、都能调”的模块层。

思维是我的，AI 只是替我落笔的那只手。

（这条动态的封面，就是这个模块自己跑出来的）

🔧 目前的栈，基本全开源、零成本：

· Forgejo——自建开源代码仓库

· 编程AI——把我的话变成代码

· Puppeteer——把样式渲染成图

· Express——把模块变成能调用的接口

· 自己写的一层轻协议——让 AI 稳定理解意图

下一步：

等我在仓库里多做几个模块、跑一阵子测试都没问题，

我打算把整个仓库开源出来，谁想自己搭一套，直接拿去用就行。

到时候再发一条。

#AI工作流 #提示词工程 #AI的神奇用法

0 00

冰朔

2月前

记录一下最近完成的模型微调全流程，从语料到部署，4个模型全部上线。

📊 母模型 · Qwen2.5-7B 全参数SFT

基座：Qwen2.5-7B（76.2亿参数）

语料：1,868条真实对话 → 预处理后11,470条 · 2100万tokens

训练方式：全参数SFT · 只对assistant回复计算loss

GPU：RTX PRO 6000 Blackwell × 1（96GB显存 · 实际占用77.5GB）

精度：BF16

超参：3 Epochs · LR 2e-5 余弦衰减 · 梯度累积8

总耗时：4小时10分钟

Loss：2.504 → 0.052 · 降幅98%

第一轮跑到20%时loss已降至0.53（降幅79%），说明语料信号极强

GPU利用率全程97%~100% · 温度74°C~84°C

训练成本：¥278（AutoDL包日）

📊 代码模型 · Qwen2.5-Coder-7B 全参数SFT

同样语料和配置

Loss：2.544 → 0.071 · 降幅97%

代码基座首次接触纯自然语言语料，起步稍慢，三轮后基本追平母模型

最终loss差距仅0.019

📊 蒸馏 · 7B → 1.5B

Track1：母模型 → 1.5B 通用蒸馏（2.9GB）

Track2：代码模型 → 1.5B 代码蒸馏（2.9GB）

两条track均已完成

📊 产出

4个模型全部训练完成，已部署上线

母模型 7B SFT（14.2GB）

代码模型 7B SFT（14.2GB）

蒸馏 1.5B · 通用基座（2.9GB）

蒸馏 1.5B · 代码基座（2.9GB）

几个心得：

语料质量 > 语料数量。1868条高质量对话预处理后效果比几万条通用数据好

只对assistant回复算loss，不加system prompt，让模型从语料本身学思维方式

全参SFT成本没有想象中那么高，一张96GB卡跑4小时，不到300块

蒸馏出来的1.5B可以在CPU上跑，日常推理几乎零成本

从语料收集 → 数据清洗 → 全参微调 → 蒸馏 → 部署上线，全流程跑通。

4 00