闲云野鹤579的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

闲云野鹤579

134关注0被关注0夸夸

闲云野鹤579

11月前

derrick.dy: 苹果端侧模型的两个亮点这篇论文是苹果的大语言模型技术报告，其中端侧模型的部分挺有趣，因此摘录一些要点，做个记录。 1. 先得有一个好的大参数量模型，才能有更好的小参数量端侧模型。苹果的端侧模型不到3B，其初始化权重来自6B模型的剪枝，学习过程中加入蒸馏loss，不仅从true labels中学习也从teacher model的top-1 predictions中学习，实验证明这种方法效果更好且更高效（图3）；最终端侧模型在人类评估中略差于llama3-8B（图4）；（也就是说，端侧模型别from scratch了） 2. 既然端侧模型都需微调、量化部署、且量化后效果不可避免有损失，那么可以提前针对量化模型预训练一个accuarcy-recovery adapters，用同样的pretrain+posttrain方式训练，使其能够尽量恢复量化模型的效果；在下游任务微调时则从该adapters进行初始化，实验证明这样能显著提升效果（图5）。（机智；以及，如果把adapters的参数加回去也能看成是一种量化技术） p.s. 小参数量模型的潜力还是挺大的，希望各家厂商继续发力小模型，因为小模型是真的便宜呀

0 00

闲云野鹤579

1年前

歸藏: Runway CEO 把组织分成了两部分，知识寻求型（KSO）和优化寻求型组织（OSO）。在特定行业（OSO）这种组织形式是必须的，比如一些低利润行业，有明确的流程和分工，相对固化。但是在发展迅速、行业早期（KSO）组织会取得相对好的结果，这也是为什么 AI 领域大厂手握那么多资源，但取得的结果却跟自己的资源不匹配的原因。他关于这两者的定义： KSO 具有涌现性质 (emergent properties)，这种性质使其难以被完全编码化。它们的规则是从人与人之间的互动中逐渐演化而来的，没有任何单一因素占据主导地位。就像神经网络一样，组织中的人（以及整个组织）会随着新信息的到来调整他们的"权重 (weights)"，不断从外部世界中学习。这些组织类似于非参数模型 (non-parametric models)，能够根据新数据灵活调整其复杂度。 OSO 致力于优化已知流程以提高效率。它们运作依赖于固定的规则和强烈的归纳偏好，就像一个具有强先验信息的模型。这类组织在成熟市场和答案明确的产品领域表现出色。根据具体需求，这两种类型的组织都有其存在的必要性。KSO 通常倾向于培养分布式领导 (distributed leadership)，并重视学习相关的指标。而 OSO 则倾向于层级化的结构，更注重效率指标。组织要么在答案明确、解决方案可预测的环境中蓬勃发展，要么通过允许系统特性从各部分的相互作用中自然涌现，从而追求创新和突破。来源：x.com/c_valenzuelab/status/1846252923208323298

0 00

闲云野鹤579

1年前

罗锴: o1发布后OpenAI的Hyung Won Chung分享了去年的交流内容，我的两点理解： 1、如何理解Scale law近期看到的进展缓慢和可能失效，其实是如何理解应用scale law的本质：首先，能否Scalable是他研究中认识取得计算杠杠的方式。其次，对人能否提出好的问题，是激励其行为的起点；而对于机器，设计出好的激励结构的权重高于transformer模型的权重。所以大模型来说scale law不是一定要沿着transformer架构去演变，只要能够达成更好的scale就可以切换。 2、市场上一直有种专有模型在特定领域会强于大模型的迷思，OpenAI认为都是放屁。用人类的专家能力和普通人的能力进行对比的例子不适用于机器学习，因为机器学习没有时间的硬约束，完成可以靠无限供给的计算资源，获得更短时间内的学习效果。（结合第一点，其实无限供给的计算资源做scale之前，设计对的激励结构更为重要）

0 00

闲云野鹤579

2年前

Winnniee: 这两天做了一下2B场景中BI、CRM两个领域应用AI的调研，想说一下不像2C这样找试用产品这么友好，都只能扒salesforce、powerBI的官网… 但还是总结一下，AI在2B企业的价值： 1是业务动作自动化（比方说现在的智能客服、ai外呼销售、短信等，直接替代人工，实现咔咔人力降低） 2是在于做好复杂信息管理，给到足够多的信息及行动建议赋能业务进行决策行动（给信息还好，给建议这部分相对来说比较难讲价值，非常依赖业务buyin与否机器给的insights）

0 00

闲云野鹤579

2年前

罗锴: 测试下Mootion AI 的更新，现在可以从一个视频生成 3D 模型动作动画，既可以将模型导入3D软件后再编辑，也可以直接进行V2V二次 AI 生成视频，现在流程的集成度还可以😆

0 00

闲云野鹤579

2年前

歸藏: 今天发现了一篇非常牛皮的内容，详细的介绍了AI视频生成中所有的技术分类和对应技术的优劣势，还有对应的工具以及典型的案例。基本上看完就能对AI视频生成有比较完整的了解，所以顺手翻译了一下，一起来看看《生成式 AI 动画技术概述》。这篇文章旨在吸引任何对此好奇的人，特别是那些可能对动画领域飞速发展感到不知所措的其他动画师和创意工作者。希望这篇文章能帮助你快速跟上潮流，并让你对这个领域有更深入的了解，而不仅仅是浏览 TikTok 上的简短内容。翻译及原文链接：https://quail.ink/op7418/p/overview-of-generative-ai-animation-technology-2023-december

0 00

闲云野鹤579

2年前

雅芳af: 未来大模型架构是否还会继续变？为何现在国内还没有爆发特别多的LLM toc应用？今天有朋友问我，我梳理了几点我知道的，如果有不同看法，也欢迎评论区一起唠唠~ 1、未来模型架构的变化是否会给toc应用带来影响？这个答案是会的。角度是模型能力在不断的提升，能力的提升会给应用带来更好的用户体验。 2、关于模型架构是否会改变，这个我不太能判断，原因是现在一些能够落地的大模型，大多是闭源模型，像是ChatGPT、长文本kimichat、文心一言，他们的模型架构、采用的技术具体不清楚。现在还没有一款开源模型能够做出追赶GPT4能力的，有开源模型追赶GPT4的，现在大多数都是被众多开发者诟病的“刷榜”出来的；再来预训练阶段的高质量数据也是模型能力出色的一大原因，这也是壁垒，需要投入非常高的人力成本跟资金。这里我再分闭源跟开源模型的架构来讲我知道的一些： •关于闭源模型架构已知的是，大多数采用的是Transformer架构，基于NTP模式，而关键在于找到高效缩放的方式，也就是scaling law的应用，这个不管是开源或者是闭源模型都是。 •关于开源模型的架构，现在一些效果比较好的开源模型，很多都跟Llama的架构差不多，后续国内在做的一些模型，除了ChatGLM等，大多也跟Llama架构很像，因为效果好的架构最重要，沿袭这样的架构是开源界在做的，比如开复老师团队的yi，但yi是真的被挺多人夸赞的，这个模型效果好是他们团队有懂应用scaling law的人。 3、为什么还没有大规模爆发原生应用，我的想法是，一个是模型的能力，这个还需要再继续迭代。再来缺AI时代的产品经理，大模型带来的是体验跟效率的提升，但toc应用需要非常懂人性+技术的产品。关于2024年开源模型、闭源模型、AI原生应用的趋势，之前@Barret李靖分享的拾象报告推荐大家阅读 https://m.okjike.com/originalPosts/65967c61c7c69d5a9f84fa71?s=eyJ1IjoiNWY2YjZjMjMxZmVhMjcwMDE3NGYxZmU5In0%3D 基于这份报告，我还找了一份访谈版的报告也一起分享出来 https://www.fxbaogao.com/view?id=4089507&query=%7B%22keywords%22%3A%22%E6%8B%BE%E8%B1%A1%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%A7%82%E5%AF%9F%E6%80%9D%E8%80%83%20-%E6%9C%80%E6%96%B0%E5%88%A4%E6%96%AD%E7%8C%9C%E6%83%B3%22%7D&index=0&pid=29&xid=

0 00

闲云野鹤579

2年前

VION_WILLIAMS: 看完这篇 Agent AI 的综述，觉得 2023 年的 Agents 和玩具没什么区别， 2024 年的 Agents 会迅速拉到一个很高门槛，美国顶尖 AI 团队真不给国人活路，所以用大洗牌这一词来形容比较合适，Agents 绝对不是普通创业者能玩的赛道。

0 00

闲云野鹤579

2年前

VION_WILLIAMS: 最近在各种自媒体和X上都比较火的一个家政机器人项目，Mobile ALOHA，只看演示视频误导性很强，看蓝即和黄即和朋友圈都有人在发视频，抽空看了下论文，其实并不是基于多模态大型语言模型实现机器人对各种技能任务的自动学习与完全执行，主要是通过监督学习的行为克隆方式，学习人类远程操作技能后习得，针对特定任务需要人类教上20~50次，才具有较高的任务完成率。但这个方案其实对于Agents领域是有较高启发的，我觉得也是2024年Agents+Robotic可能结合的一个新趋势，不必完全依赖于Agents实现完全自主自动化的执行，LLM/MLLM+RL/SL的AI Agents，有效数据集的采集依赖于完成特定场景的有效任务，如果我们老是让Agents在不成熟的任务完成率中依赖大模型的精准度提升，会让我们在2024年错过对有效场景数据的捕捉。所以，做Aents的业务端，不必过于依赖LLM，要形成以LLM+Agents的核心技术堆栈，学术界总想靠一杠子打到底，但是在工程领域，我们是可以通过对业务的理解搭建技术堆栈，用户关心的是能够用产品解决需求，并不关心用一个超牛逼的技术方案解决一切。

0 00

闲云野鹤579

2年前

进击的盖茨比: 文科生，面对海量AI信息，如何不焦虑，快速做点什么甚至赚钱？作为1个政治学出身、过去消费金融从业的大龄文科生，这成为我在2-7月最痛苦的事情。半年后，我可以比较熟练地掌握MJ，GPT4插件，写Prompt定制，一口气给中小企业主讲4小时的AI科普实操课了。也用AI+低代码做了第一个小程序，自己的小公司，也基于AI-bot来思考，能AI化就AI化。实践下来，我把即刻+B站+Twitter+YouTube作为无围墙的大学，建立适合的信息跟进系统。这个思路可能适合与我一样，相对不聪明、但对AI感兴趣的文科生朋友。艾特了很多即友表示感谢，2024让我们确保AI创造，在即刻发生。以下是长文思路：一、筛选优质信源总体上是一个先做加法，再做减法的过程。 1）论文-即友-Twitter 原则是尽可能贴近一手信息。论文最佳（虽然一般消化不了）可先读几篇公认的论文（比如Attention is all you need），没能力，就读中文版。然后关注即刻AI大牛，可以自己逐步分类（这里只是我的主观定位，不一定是KOL的想法哈，不分排名）如AI绘画：@海辛Hyacinth @刘飞Lufy @歸藏 @莱森LysonOber @炼丹师忠忠 @Simon阿文偏工作流：@杨昌 @壁花少年. @泛函 @葬花达人鲁智深偏产品工程：@奥古斯书 @杰森梁 @白宦成 @即友_AV4DII @吕立青_JimmyLv @Frank.Lin 偏出海：@哥飞 @深思圈 @赖嘉伟Gary 偏模型：@阿法兔 @罗X 偏资本&商业：@yusen @莫妮卡同学 @henu王凯偏提示词：@李继刚 @陈财猫 @小七姐还有一些实操有作品的大牛，如@刘驴 @数字生命卡兹克 @AUDI_GUZZ @VION_WILLIAMS 非常多优秀即友，恕我不一一列举。再者，Twitter有最佳AI信源，但我英文不好，果断放弃。后来遇到了“沉浸式翻译”，感谢@OwenYoung 的作品，学习效率直线上升。可以关注的X大佬有：宝玉@Greg Brockman@Gorden Sun@Andrew Ng等等 2) 媒体-KOL社群主流AI新媒体，如机器之心、量子位等，都有微信群，都加上。然后全部改微信群备注，按照属性分类。如1群-侧重商业化-机器之心加入一些KOL的群，比如@哥飞 @大咕咕咕咕驴 @数字生命卡兹克等付费加入了优质AI社群，如“AI破局圈”知识星球。参与少数线下活动，如参加深圳奇绩论坛，加群。加其中的“大模型日报”。这样，一个手动版的RSS就建立好了。二、将摄入的信息做分类 1.在心理上，将所有信息分为6类道、法、术、器、势、志。道（AI向善/社会结构/人文/科幻等务虚话题）比如刘慈欣的《终产者》，很多科幻、人文讨论等。法（合规/法律/地方政策/资本动向等宏观信息）如《生成式人工智能服务管理办法》意见稿、备案《AI生成图片著作权侵权第一案判决书出炉》VC大佬朱啸虎和创业明星傅盛争吵也属于此类。术（模型/架构/Prompt/开源协议等）器（器（应用/工具/工作流/自动化等）势（自己有什么真正优势，如何切PMF）志（自己有什么，要什么，放弃什么）这一步，我认为挺关键的。有意识地给信息打标签，才能让你我清醒，避免摄入过多不重要的东西。 2.用微信单独建群上述6类，单独分群。打开微信右上角的“面对面建群”，看到对应的信息，发自己的群，给自己或者相关朋友看。 “会读”APP出来后，我就把看不完的扔“会读”处理了，参考了@范冰的流程。不同的是，悬浮窗我总会留10篇左右一次看不懂的文章，确保自己第二天再读一遍。 3.策展类+导航站会快速浏览@Szhans 每期的AI策展，@阿扶frits 的信息流也是。导航站推荐：futurepedia.io（科学上网）ai-bot.cn（国内可用） Huggingface和GitHub偶然上去看看点赞高的。 B站也有非常多好的UP主，但我只是看了@李沐和@吴恩达的公开课。SD的课，看@Nenlyonis 的视频就够了。 4.记下常见的100个概念，说一遍学习新知识，先看100个重复词汇。比如LLM，Lora，RLHF等，列出来，然后自己都看下是否知道。飞书有一个行业缩写文库，有人工智能的，是一个不错的工具。 5.学大厂公开课，考证推荐微软领英全球第一个AIGC公开课，Google生成AI公开课，讯飞AI课。把3个证都考了。三、找个最贴近场景的上手练习在玩了100多个AI工具后，我发现自己犯了@王建硕老师说的，过于关心“AI新闻”，而不是研究AI。即，器/术的部分浅尝辄止，用到工作流里的还是少。所以把和生产力相关的AI做成库，就不再理会。开始专注GPT Prompt本身，以及Midjourney +SD 的商业化应用。后来发现，提示词或许都不是最重要的，工作流更重要，转向RPA，初阶AI-Agent。现在只看和自己想要解决的问题有关的AI技术，比如RAG。只思考“势”和“志”的部分，指引自己行动。AI是追不完的，搞不定就果断放弃。普通人不要太苛责自己。四、输出带输入每周试着写一点相关的信息，把自己画的图发到即刻或者朋友圈。然后开源自己的学习记录。Learn in public，蹭点赞。打开OpenAI的Playground，每天试着写几段Prompt，直接生成GPTs开始玩。不过，我真正感受到完整的“AI赋能感”，是在自己用ZIon低代码工具做了一个小程序，全程用GPT-4做代码辅助跑通后，才对工程化、数据库、前端、后端等AI提效的环节有体感。而当我们带着这些认知，去和企业家、小老板们真正接触，在一遍又一遍地落地气馁后，对于AI能做什么，不能做什么的感受，才愈发真实起来。现在的我，回到原有的领域，试着磕金融AI办公的场景，欢迎大家和我交流。最后大家看到，这是个笨拙/冗长的框架。我并不是一个很聪明的人，很羡慕大家能快速学习并拿到结果。我只能依赖结构性的笨办法，一点点做。如果看到这里，我已经很爱你了。相信我，哪怕是文科生，笨一点，慢一点，也不会错过这波AI的浪潮。 2024年，让我们确保AI创造，即刻发生。

0 00