即刻App年轻人的同好社区
下载
App内打开
paver
209关注8被关注0夸夸
paver
10月前
@全体成员 rock-5c-rk3588s-emmc-512-20250307.zip 支持初始安装时升级固件 适配了转接卡 同时支持定制内核和原厂内核的转换命令 默认定制内核 qnap shell admin权限 [~] # fw_printenv qnap_kernel qnap_kernel=custom 改成原厂内核 [~] # fw_setenv qnap_kernel qnap [~] # fw_printenv qnap_kernel qnap_kernel=qnap 重启 恢复定制内核 fw_setenv qnap_kernel custom fw_printenv qnap_kernel qnap_kernel=custom 重启
00
paver
2年前

溪河: LLM小知识系列~ 第一期:LLM如何被训练出来。 总共可以分为三步: 第一步:SFT(Supervised Fine-Tuning) 使用标注的数据和预训练模型监督微调LLM。比如 OpenAI 在第一个RLHF模型InstructGPT中,使用小规模参数版本的GPT-3模型,这类语言模型往往见过大量的[Prompt,Text]对,输入一个Prompt,往往能返回不错的回答。 第二步:RW(Reward Model) RLHF中关键部分是RM(reward model),根据人类的喜好给文本打分。可以用1个LM来实现,也可以用1个系统先对文本排序,再把排序转换成分数。RM可以是另一个经过微调的LM,也可以是从偏好数据里重新训练的LM。而RM的训练数据有两部分——文本&分数。文本来自数据集,用原始的LM生成回答。分数是比较多个回答,给出排名,通过排名给到合适的分数。 第三步:PPO(Proximal Policy Optimization) 利用PRO算法,根据RW模型的奖励反馈进一步微调SFT模型。强化学习训练LM的可行性方案是用策略梯度强化学习(Policy Gradient RL)算法、近端策略优化(PRO)微调初始LM的部分或全部参数。PRO算法面世已久,有大量参考资料,所以成为RLHF中的有利选择。 PPO 算法确定的奖励函数具体计算如下: 1. 先用原始的 LM 和微调过的 LM 分别根据prompt生成answer,然后用 RM 给微调过的answe打分。 2. 将来自当前策略的文本传递给 RM 得到一个标量的奖励Rθ 。再用KL散度(Rkl )来衡量两个文本的差异,KL 散度值越大,说明两个概率分布之间的差异越大。 3. 之后进行奖励的更新优化,即R=Rθ−λRkl ,λ是可以动态调整的KL自适应惩罚参数。 如果差异太大,就给微调过的文本减分。这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型,以确保模型输出合理连贯的文本。 4. 最后根据 PPO 算法,我们按当前批次数据的奖励指标进行优化 ,用梯度上升来更新参数θ。 参考链接:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat 第二期预告:为什么数据对LLM很重要 第三期预告:生产LLM数据的挑战在哪里

00
paver
2年前

晨然_: 推荐我做的开源项目:前端组件生成器 直接用自然语言生成可运行的完整前端组件!告别查组件文档手搓卡片的过去🤣对我这种前端小白不要太友好 GitHub: https://github.com/jw782cn/chat_to_frontend ✨描述你的需求生成代码,复制进你的nextjs项目即可!(需要OpenAI apikey) ✨技术栈 - 基于shadcn组件库生成 - 用langgraph搭建的agent - streamlit实现交互 - shadcn 官方文档进行了数据预处理 ✨为什么做这个? Shadcn组件库我很喜欢,但构建一个特定需求的组件工作流:查文档 -> 复制粘贴 -> 改代码 -> 查文档 的流程完全可以自动化。不想做重复劳动!但GPT不能直接生成shadcn代码因为它没学过(或者说不太会) ✨Agent工作流 用langgraph搭建了四个步骤 - 选择:根据shadcn官方文档和用户问题选择需要的组件 - 大纲:根据选择组件的文档和用户问题生成前端页面大纲 - 写代码:生成代码 - 精炼:重新调整一遍代码(必不可少,因为实测发现第三步直接写的不太行) ✨原理很简单 就是读文档,用文档相关的组件写代码。基本能实现不报错直接复制运行!没有使用vector database因为觉得语义不准确,直接用GPT 3.5做路由更简单。 ✨整个测试流程还用了dspy,要是有兴趣,可以再展开讲讲数据处理和原型搭建。 现在还是初步demo阶段,不知道有啥想法没! 之后可能想做的是加上图片输入格式。 下一条经验分享:https://m.okjike.com/originalPosts/65e4334c9185c305d1b3ed5e?s=ewoidSI6ICI2NDk0MzEwNDA1MDU0NDcyNjRkNmI3MDEiCn0=

00
paver
2年前

饭团团不困了: #2023最爱的3个产品 最喜欢的新产品 ▼Artifact(信息食谱管理向) 在这之前是用 Meco 管理 newsletter 订阅,邮件多了之后很难筛选,下一步处理也不方便,加之后来 Meco 改订阅制就没用了。Artifact 推荐的文章还不错,其他用户对文章的评论也比较有参考价值,值得深读的信息往 Safari 的五彩里丢也很方便。它跟即刻一样在我的 dock 栏里。 ▼ Coze(AI 产品向) Perplexity 我很爱的,它是个很好的 GPT 入门产品,在确定了 research 目标之后,信源非常丰富。但它只能做搜索用,长对话会失忆,而且中文语料吃垃圾太多导致输出不稳定。出于月费考虑我又尝试了其他套壳类产品:Lobe、Monica、Sider、ChatSonic 等等,Coze 的免费 GPT-4 赢了。而且 Coze 的后台让我对手搓 bot 有了比较全面的认知,官方每次更新 bot 我都会拆开看下它是怎么调用 plugin 怎么写 workflow 的,于是我才知道为什么各家套壳工具差异这么大,这里面要微调的部分很多。 所以 Coze 产品本身对我来说是教学工具,推荐每一个朋友试试自己 diy,再结合自己的需求和工作流来调试自己的工作伙伴。 另外 Monica 我还是很心动,它完全可以替代 ChatGPT Plus 和 Perplexity,尤其是 PDF 阅读和对话功能我很喜欢用。UI 也对我的眼睛很好。(一开始中文支持得不太好,但是 Arc Boost 一下就顺眼了)。希望它出团队 plan,这样 Monica+Coze 的组合差不多满足日常需求了。 ▼ Stash(基础服务向) Surge 的平替,一直在用 Clash 和小火箭,也没啥新需求,但是 Stash 就属于花点小钱能提升体验的产品。换上小猫 icon,很快乐。 另外因为 Dler 的持续不稳定,换了不少备用🪜。不同的 AI 产品对 IP 的要求还不一样,自己写规则很麻烦,Imm 真不错!配合 Stash 用很丝滑。 最喜欢的老产品 ▼ Obsidian(PKM) 今年把个人知识库从 Notion 和 Logseq 迁移到了 Obsidian,除了对双链的需求,最主要是因为 Canvas 功能。我日常的信息摄入有很多图,有很多的设计师/工作室需要关联,Notion 和 Logseq 都不能满足。尝试了 Heptabase,产品交互和 UI 都很心动,但是不支持 md 导入。Milanote 我也付费了,它最大的缺点是没有双链。 Obsidian 的 canvas 很好用,可以把信息都铺开,但同时相互关联。我从 Artifact 看的文章,可以通过五彩插件自动同步到 journal 里,同时在 journal 里记录自己的看法和微信读书笔记。这中间我减掉了 flomo 和 cubox。 我最近也在用 Obsidian 管理我的 prompts,Stable Diffusion 和 GPT 的 prompt 都有模板,Midjourney 的魔法、种子、图片演进过程一目了然。 主题和 workflow 调试花了好几天,期间一度想放弃😮‍💨。主题选的 Ultra Lobster,微调了很多很多样式,没有 GPT 的帮助这 css 改得我高低是要暴走。 ▼ Arc (日用打猎向) 很多人可能觉得 Arc 的一些功能 Chrome 插件也能完成,但我对日用品的颜值要求很高,这一点 Arc 完胜。再加上这家公司的迭代速度和产品发布风格,很难不被这群人吸引,它是为数不多我会期待发布会的产品,我甚至写邮件给他们说很期待 Arc Max 的更新,我愿意为之付费。 ▼ FigJam(协作工具向) 我整理设计项目需求主要用 Notion ,会上讨论的信息通过会后我用妙计整理。试过 Milanote 和 Miro 做反馈用,但这俩还是脱离我的常用工具,尤其是不再用 Milanote 做 research 之后更是很少打开。 FigJam 在更新了 AI 相关功能之后我打开频率变高,同时文件可以统一管理,embed 进 Notion也方便,还有简单的表格功能。在项目前期,信息繁杂,对于讨论、梳理和收束都很方便。当然也可能主导方是我自己吧,同事只需要评论和投票🤣工具门槛不高。(跟 Obsidian 一样,我就是喜欢可视化的方式梳理信息)也很期待 FigJam 在 AI 功能上的更新,可视化的 GPT 对话。

00
paver
2年前
10