即刻App
年轻人的同好社区
下载
App内打开
R2DoS
1k
关注
19
被关注
0
夸夸
一张嘴就是老 degen 了
R2DoS
7月前
Roxane: 一些个人认为适合非技术背景同学入门RL的材料不完全整理: 1️⃣青铜级 (都是播客) 《一堂「强化学习」大师课》——42章经 《与马毅聊智能史:“DNA 是最早的大模型”,智能的本质是减熵》——晚点聊LateTalk 《我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill》——42章经 《走向强化学习:Agent 还是应用公司的机会吗?对话 Pokee.ai 创始人》——硅基觉醒 《Agent 开发的上半场:环境、Tools 和 Context 如何决定 Agent》——42章经 《强化学习的前世今生》——科技慢半拍 (以下是一些发布时间较早,但是我认为仍有价值所以保留推荐的⬇️) 《AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL》——张小珺Jùn|商业访谈录 《逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”》——张小珺Jùn|商业访谈录 《对话 Google Deepmind 研究员:OpenAI o1 及LLM+RL 新范式》——OnBoard! 2️⃣白银 Andrej Karpathy《Deep Dive into LLMs like ChatGPT》(视频)(不是专门讲RL的,但是建议先看,系统了解) Sam Lehman《The World's RL Gym》 Sutton与Deepmind《Welcome to the Era of Experience》 《Richard Sutton on Pursuing AGI Through Reinforcement Learning》(视频) 3️⃣黄金 OpenAI o1 技术报告《Learning to reason with LLMs》 Deepseek官方论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》 Sebastian Raschka《The State of Reinforcement Learning for LLM Reasoning》 4️⃣翡翠 《Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限》(一篇公众号的概述,建议阅读原文) 《OpenAI's o3: Over-optimization is back and weirder than ever》 5️⃣钻石 Sutton and Barto《Reinforcement Learning: An Introduction》 (坦白说还没学到这个层次,欢迎大佬们补充...) 其实还有很多优质的资料,但我还没读的就不冒昧推荐了,欢迎在评论区安利🥹 🎊扩展阅读 《A biref history of intelligence》
0
0
0
R2DoS
1年前
杨远骋Koji: 今天被 Google NotebookLM 震惊到了,把我丢进去的一大堆乱七八糟的材料,直接变成了二人对话,直出一段制作精良的播客。 从此不用害怕阅读障碍了。 这个必须要亲自体验,才知道有多神奇。链接:https://notebooklm.google.com/
0
0
0
R2DoS
1年前
Random_thoughts: 一个巨大的信息差: 自动化提示词远优于人工编写的提示词 (可能大模型自己最懂自己吧) 对于一个特定的任务,标记一些输入输出的例子 1. 冷启动,使用 Dspy 2. 优化,使用 AutoDiCoT 详情参考这篇论文
0
0
0
R2DoS
2年前
曾曾曾曾曾俊: 一晚上把 coze 的大部分插件都玩了一遍,下图记录了一些比较好玩的插件 把这些插件利用工作流串起来放到 bot 中,很多小想法都可以实现了 例如小宇宙链接分享至微信获取播客摘要:小宇宙链接提取工具 ➡️ 音频处理成文本工具 ➡️ 文本总结摘要工具 ➡️ 发布至微信客服 就可以达到分享至微信就获取摘要的目的 对于一些不复杂的产品,coze 把做产品变得像写 prd 一样简单
0
0
0
R2DoS
2年前
PM贝尔熊.AI时代产品经理: llama3一出,中文大炼丹比赛开启 可用Chat版模型整理 * llama3-Chinese-chat-8b: * OpenCSG全速下载:https://opencsg.com/models/shareAI/llama3-Chinese-chat-8b * WiseModel全速下载:https://wisemodel.cn/models/shareAI/llama3-Chinese-chat-8b * Instruct + 进行中的中文sft版本:https://modelscope.cn/models/baicai003/llama-3-8b-Instruct-chinese_v2/summary * 联通微调版本:https://www.modelscope.cn/models/UnicomAI/Unichat-llama3-Chinese/summary * Openbuddy微调版本:https://www.modelscope.cn/models/OpenBuddy/openbuddy-llama3-8b-v21.1-8k/summary * 破解安全限制系列(目前仅支持英文): * Unholy:https://huggingface.co/Undi95/Llama-3-Unholy-8B * neural-chat:https://hf-mirror.com/Locutusque/llama-3-neural-chat-v1-8b * dolphin:https://huggingface.co/cognitivecomputations/dolphin-2.9-llama3-8b * Bunny-Llama-3-8B-V(多模态图文版本:):https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V https://github.com/CrazyBoyM/llama3-Chinese-chat
0
0
0
R2DoS
2年前
比特小白鲸new: 神鱼N年前在微博上写给新手的建议:如何从1000刀的本金赚到1亿刀。 1、10万刀以内: 多学习,多动手。 刷核心赛道Defi项目的空投,刷热门NFT项目的白名单mint,此阶段需要花费大量时间获取信息,分析研究判断潜力项目,执行力一定要强,坚持不懈薅羊毛; 2、10万-100万刀: 不要杠杆炒币,不要玩合约 在新的公链和L2上,按照时光机法则找到潜力的项目,低价获取筹码;找到属于你的十倍币; 3、100万-1000万刀:选择你的币本位btc 或者eth等,深入研究;适当交易,不要做空,不要做空,不要做空!灵活使用低杠杆的defi借贷协议,提高资金利用率,可以使用类似dydx这样的平台,交易同时获取到token奖励。多观察,多套利,坚持币本位,追求币本位的增长;不要贪图参与每一个热点,赚每一分钱,通过套利,staking等获取稳定现金流,心态稳定,淡然处之,财富水平能否突破,剩下交给时间和行业发展; 4、1000万-10亿刀: 一旦资产超过一个小目标,改善下家人生活,多读书,多健身,改变下个人认知和圈层,拿住核心资产,不踩大坑的前提下,追求低风险稳定增值和良好的现金流。 不要玩合约,不要创业,注意避免入坑。 保持一定的币本位资产不踏空。 保持一定的稳定币资产获取稳定的现金流 。同时应对生活中突发情况,暴跌时候也可以有子弹抄底。 拿10-15%资产投投自己看好的赛道,让自己有事可做,同时也能防止自己手贱。
0
0
0
R2DoS
2年前
歸藏: 卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。 而且还可以与 ControlNet 和 IP-Adapter 等其他技术结合使用。还是开源的,期待对应的 ComfUI 节点。 详细介绍: 推出了一种名为 Magic Clothing 的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务——服装驱动的图像合成。 该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。 为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。 同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。 此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与 ControlNet 和 IP-Adapter 等其他技术结合使用,进一步提高生成角色的多样性和可控性。 我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。 论文地址:https://arxiv.org/abs/2404.09512
0
0
0
R2DoS
2年前
SUKIII: 最近和几个朋友聊天记录: 1. 我问他是怎么建Prompt的验收标准的:准备好Query,归纳抽象理想回答的几条Principle,找一个更聪明的大模型基于这个Principle来给Prompt的结果打分,每次上线前跑1000条。 感觉挺make sense,想测试一下。 2.perplexity怎么解决搜索引擎响应速度的问题:去年8月份就宣布基于3.5版本的微调模型已经比GPT4快且效果好,且自研了推理堆栈(pplx-api),能大幅度提升响应速度。微调没那么难搞,只要场景垂数据集质量高,一周左右。 3.在厂里的朋友说在搞低代码搭建Agent,面向B端,找不到太落地的具体场景,还要搞权限数据集多环境版本,由于B端业务逻辑比较复杂,要依赖现有GUI,要跳卡片或者跳页面,比C端难做太多了。
0
0
0
R2DoS
2年前
SUKIII: 最近和几个朋友聊天记录: 1. 我问他是怎么建Prompt的验收标准的:准备好Query,归纳抽象理想回答的几条Principle,找一个更聪明的大模型基于这个Principle来给Prompt的结果打分,每次上线前跑1000条。 感觉挺make sense,想测试一下。 2.perplexity怎么解决搜索引擎响应速度的问题:去年8月份就宣布基于3.5版本的微调模型已经比GPT4快且效果好,且自研了推理堆栈(pplx-api),能大幅度提升响应速度。微调没那么难搞,只要场景垂数据集质量高,一周左右。 3.在厂里的朋友说在搞低代码搭建Agent,面向B端,找不到太落地的具体场景,还要搞权限数据集多环境版本,由于B端业务逻辑比较复杂,要依赖现有GUI,要跳卡片或者跳页面,比C端难做太多了。
0
0
0
R2DoS
2年前
OrangeAI: 大牛新作 完全开源的类 pplx 搜索引擎项目。 图片、来源、回答结构都跟 pplx 非常相似。 支持一键部署到 vercel。 项目地址 https://github.com/miurla/morphic?tab=readme-ov-file
0
0
0