即刻App年轻人的同好社区
下载
App内打开
宫铭
189关注117被关注0夸夸
AI冲浪、程序员
宫铭
1天前
越来越体会到算法工程师的工作,90% 的时间在做数据
00
宫铭
1天前
最近在构建私有模型的一些经验总结

1.在私有模型构建的过程中,分成知识型能力和推理型能力

2.知识型能力主要靠预训练和微调。
预训练一般情况都是巨头的游戏了。非巨头,一般都是在微调上下功夫。

3.推理型能力,一般有三种方式来拓展:
a.微调:在微调数据中包含推理样例,成本最低,有大量云厂商提供了微调的 API 或者页面。
b.强化学习:对于容易衡量正确与否的领域,适合用强化学习。
c.Test Time Scalling:推理阶段让模型多思考一些时间。

4.建议在模型构建初期,充分挖掘微调的潜力,构建良好的训练数据和评估方式。

5.之所以微调无法解决所有问题,还需要强化学习的原因:
一方面是成本,高质量的推理数据生产成本比较高,大多需要人来写
一方面是质量,推理数据水平上限受限于人类水平,强化学习在有明确奖励函数的情况下,可能探索出比人类水平更好的数据

6.在能低成本用代码生产训练数据,或者不需要超越人类水平上限的时候,就还不着急上强化学习,先把微调搞透

另外,deepseek 也实验过,假如基座模型能力不足,直接上强化学习,效果并不好。
00
宫铭
3天前
kimi 技术水平不弱于deepseek,kimi 的势能与 deepseek 的天壤之别源自于闭源的战略选择

deepseek R1和 kimi k1.5能力类似,都是 1 20号发布

同样创始人挂帅的对注意力机制的改造,拓展长上下文的训练效率的论文,都是 2 18 日同时发布

说明 kimi 技术水平完全不弱于deepseek

kimi 选择闭源,deepseek 选择开源,造成了影响力的天壤之别

开源天然就具备传播性,容易获取影响力,天然容易具有道义优势

在当前智能还在突飞猛进的阶段,固守某种产品形态,也许不是明智之举。

PS:顺口吐槽一句,deepseek 的论文比 kimi 的好读,重点和图示都更清晰。也一定程度上影响了在学术圈的传播
142
宫铭
4天前
deepseek 新发论文 Native Sparse Attention 在最核心的注意力机制上动刀子

通过算法优化,在相同的硬件下,针对长上下文的训练任务,训练效率提升 10 倍,模型效果还略好于传统注意力机制。

预期下一版 deepseek 的模型:
1. 上下文长度会有大幅提升
2. 在长上下文情况下的模型智能水平会有大幅提升

deepseek老板亲自挂帅发论文,创新层出不穷,真是厉害。

deepseek 无法被模仿的核心点是 梁文峰 + 不缺钱 ,最根本来说还是梁文峰。
20
宫铭
4天前
社会是演化出来的,不是计划出来的。如何与身边大量的不确定性相处?
10
宫铭
4天前
最近有种强烈的想法,AI 时代,编程的成本被大幅压缩了,很多想法都可以低成本快速构建,快速试错
10
宫铭
6天前
AI编程的发展速度太快了,突破了我的想象。

今天一个生成训练样本的任务,自己判断开发的成本高,自己先手动调样本。

但人工搞起来各种费力,各种细节都要校验,眼睛都看花了。

碰壁之后,尝试了一下 AI编程来生成代码,虽然逻辑复杂,但只需要给 AI讲清楚逻辑,5 分钟就完成了所有的代码编写,关键还很优雅。

爽感突破天际
00
宫铭
6天前
最近直观地感受到训练数据对模型效果的重要性,训练数据的质量直接决定了效果。

训练出来的模型输出的错误,都能从训练数据中找到原因
00
宫铭
8天前
SFT的过程就像是养小孩,告诉他知识,告诉他怎么分析问题,现在看起来,数据最关键
00
宫铭
9天前
腾讯元宝也开始接入 deepseek R1 了,速度特别快,非常赞。

其实 元宝应该早些接入,这样子能增加很多免费流量。

腾讯就不如 纳米搜索身段柔软,纳米搜索在 deepseek 应用上架之前,就购买了各种 deepseek的关键词来拦截下来。虽然手段让人不齿,但确实有效。

据说纳米搜索在春节期间的日活都超过 kimi 了,也是很大的突破。
61