即刻App年轻人的同好社区
下载
App内打开
Random_thoughts
16关注636被关注2夸夸
工程师 跑者
没有任何学习过程比得上从0造一个
没有任何思考过程比得上写一篇长文
置顶
Random_thoughts
2月前
写了个 大模型应用开发的教程,公开免费

“因为自己淋过雨,所以想给别人撑把伞”,只为了像我一样的工程师/产品入门大模型开发 少走点弯路。

面向小白,尽量通俗易懂且实用。

大模型应用开发教程

1467
Random_thoughts
5天前
虽然 Cursor 很火,之前的 Artifacts 也备受关注,但我认为我们不应该完全依赖 AI 来创造程序。相反,应该利用 AI 来辅助我们的想法。

对于成熟的程序员来说,他们有自己的开发流程和代码规范,并且心中有一幅全景图,清楚地知道自己要写的每一行代码。在这种情况下,Copilot 的作用更像是在适当的时机出现,帮助补全所需的代码。

因此,我会选择 Copilot。
30
Random_thoughts
15天前
再愚蠢的人都可以写出计算机能理解的代码。但是人类能理解的代码,只有优秀的程序员才能写出来。
00
Random_thoughts
16天前
可能是一个暴论:大部分开发和产品做不好 AI 应用的原因在于他们不了解业务。

新一代 AI 对开发者和产品经理的业务抽象能力提出了更高要求,只有通过沟通和实际体验才能真正理解业务。这是很多技术和产品人员欠缺的技能。举个例子,做好 RAG,不是闭门造车试各种方法,而是观察业务人员如何检索信息。有时业务人员简单的关键词检索比复杂的 GraphRAG、Embedding 或模型训练更有效。

同样地,写好 Prompt 和设计 Flow 都基于对业务的深刻理解。没有深入了解行业业务的开发者和产品经理,很难设计出好的方案。
31
Random_thoughts
26天前
这……AI 都会自己写论文了,包括做实验,画图,写伪代码。

图片里的文章是AI生成的
10
Random_thoughts
29天前
对于大模型应用开发公司,打日志太重要了,比修 100 bug 都重要。

试想下在 debug 的时候可以一秒钟找到,某句话对应哪个 prompt,直接调试修改那个 prompt。然后再瞬间找到 这个 prompt 下最近的其他的调用记录作为测试集测试。

打好日志 = 10x prompt engineering
22
Random_thoughts
1月前
公司第一笔收入,yes!
40
Random_thoughts
1月前
年度第二个最有收获的大模型视频,信息量太大。简单的写一下第一感受,有很多反直觉的地方:

1. 首先也是学到的最重要的一点, 如何科学的做研究。通过对比实验得出结论 + 通过探究模型内部发生了什么得出原理。作者通过 训练GPT2级别的模型复现了很多之前以为 GPT4才能做到的效果,使用控制变量,保证数据,模型参数等的隔离。说起来简单,没有几篇 LLM 的论文能做好控制变量。
2. 微调的能力上限可能比想象的还要低的多,很多复杂的逻辑和推理能力,只能在 pre-train 阶段学习到,fine-tuning 阶段来学习已经来不及了,引发不出模型的能力
3. Train 一个 100m 参数的 Model 适用于专有任务没有想象中那么难, 8张 v100 H100, 对于专有任务可能接近 GPT4或超越 GPT4,可能是一些创业公司的未来方向,而不是微调。
4. GPT4 的上限远不止此,更好的数据和 Token 标注格式(少部分垃圾数据都直接影响输出结果)+ 专有任务的合成数据 + 更合适的网络深度 + 更好的 positioning embedding 还会把模型效果再往下推一大步。
5. 未来模型的大小并不需要那么大,可能一个足够好数据及训练方式训过的 70B 模型就足以 cover 所有的人类文本数据的问答了。
6. COT 对于知识处理,非常重要, 如果不采用 COT,模型连一些简单任务都处理不了。比如判断奇偶性,比较数字大小。
7. 模型无法回答 逆向检索的问题,如果训练数据中是 A is B, 模型回答不了 B is A。非常奇怪的一个现象。(难道 GPT类模型只能按训练顺序输出?)
8. COT 是有上限的, 模型在输出前,已经把推理逻辑想好了。不论如何改 Prompt 来追求模型回答一些复杂的多步逻辑推理,可能都是无效的。
9. 我之前还对 GPT 是否是AGI 的实现方向保持怀疑,在看了演示了几个模型自己在输出层之前就学会了动态规划以及复杂数学题的推理拆解后,对于 GPT 能否实现 AGI 又有了一些信心
10. 模型的自我纠正能力不能通过微调来提升,只能通过 pre-train 阶段加入 错误→纠错数据来修正。

以上观点均为个人主观理解。强烈建议看原视频及论文

ICML 2024 tutorial: 语言模型物理学_哔哩哔哩_bilibili

25
Random_thoughts
2月前
入坑陶喆了,《蝴蝶》太好听了
50
Random_thoughts
2月前
1. 缩短流程
2. 并发能并发的部分
3.简单任务切为小模型
4.考虑真的所有任务要用 prompt 解决么
5.交互上为什么要一次跑完所有流程,不能拆成多轮输出么,进行到一半可以进行一次输出或确认

黄同学_: 在教育场景下,为了让 LLM 输出更准确,将一段 prompt 拆分成更新细颗粒度、6-7 个环节prmopt 串成工作流,但导致结果输出要 20 秒+。请问有经验的朋友,这有什么解法吗?

02