即刻App年轻人的同好社区
下载
App内打开
QoyAI
82关注2被关注0夸夸
QoyAI
10月前

雅芳af: 👩‍💻回顾今年,AI大模型开发者关注的技术要点可以归纳为以下几个主题,汇总了每个主题涵盖的一些开发者关心的问题,以及相关的技术文章和论文,分享出来 ▶️大型语言模型(LLM)微调 ▶️垂直领域模型微调 ▶️LLM+外挂知识库 ▶️LLM+Agent ▶️长文本微调 ▶️多模态大型语言模型 ▶️国内外高性能开源基座 ▶️OpenAI官方发布的一些技术文档 1️⃣大型语言模型(LLM)微调 ✅大语言模型从入门到精通 🔗大模型技术基础教材:https://intro-llm.github.io/#chapter 🔗大模型技术实战:https://wangwei1237.github.io/LLM_in_Action/ ✅微调指令数据集构造 🔗通过self instruct的方式让GPT-4生成大量的指令和回复的数据对 🔗开源指令集汇总:https://github.com/PhoebusSi/Alpaca-CoT/blob/main/CN_README.md ✅低资源下,微调大模型选择的技术路线 🔗参数高效微调方法(PEFT,如lora、prefix tuning等):https://www.zhihu.com/question/593383416 🔗Huggface开源的高效微调大模型的库:https://huggingface.co/blog/zh/peft 🔗QLoRA和全量参数微调Llama/Baichuan等:https://github.com/yangjianxin1/Firefly ✅微调、推理大模型所需的显存计算 🔗大模型显存估计开源工具:https://huggingface.co/spaces/hf-accelerate/model-memory-usage 🔗大语言模型LLM推理及训练显存计算方法:https://www.cnblogs.com/tommickey/p/17741619.html ✅微调、推理、量化常见使用的开源框架 🔗常见微调框架:llama-factory、deepspeed、metronlm、unsloth 🔗常见推理加速框架:vllm、mlc-llm、Medusa 🔗常见量化框架:exllamav2、bitsandbytes ✅大语言模型幻觉相关的论文: 🔗幻觉定义、解决思路https://github.com/LuckyyySTA/Awesome-LLM-hallucination ✅符尧老师关于数据工程、大模型评测文章: 🔗包含预训练阶段如何找到「最优的混合比例+数据格式+数据课程」来使学习速度最大化等 https://yaofu.notion.site/An-Initial-Exploration-of-Theoretical-Support-for-Language-Model-Data-Engineering-Part-1-Pretraini-dc480d9bf7ff4659afd8c9fb738086eb 🔗关于大模型评测:https://yaofu.notion.site/C-Eval-6b79edd91b454e3d8ea41c59ea2af873 2️⃣垂直领域模型微调 ✅领域主流模型: 教育(如educat)、医疗(如ChatGLM-Med)、金融(如FinLLM)、心理(MindChat)、法律(ChatLaw)、科学(starwhisper)等 ✅开源、高质量的预训练语料 🔗悟道https://data.baai.ac.cn/details/WuDaoCorporaText ✅领域:专用数据集配比如何 🔗Chathome数据配比,介于1:5~1:10之间 3️⃣LLM+外挂知识库 ✅知识库构建流程 🔗从 RAG 到 Self-RAG https://zhuanlan.zhihu.com/p/661465330 ✅实现rag的开源项目, 🔗langchain、llamaindex https://baoyu.io/translations/rag/advanced-rag-techniques-an-illustrated-overview ✅大模型外挂知识库(RAG)优化方案 🔗https://www.zhihu.com/question/628651389/answer/3314772569 4️⃣LLM+Agent ✅OpenAI应用研究主管的万字长文 🔗Agent = LLM+ 记忆 + 规划技能 + 工具使用:https://juejin.cn/post/7256759718810206266 ✅Agent当前的研究重心 🔗如何选择基础模型、prompt设计上有哪些参考的示例:ReACT(https://react-lm.github.io/)、ReWOO(https://arxiv.org/abs/2305.18323) ✅Agent有哪些常见的主流开源框架 Autogen、AutoGPT、BabyAGI等 5⃣️长文本微调 ✅长文外推能力的定义 🔗苏剑林老师:https://spaces.ac.cn/archives/9431/comment-page-1 ✅主流模型使用的外推技术 🔗旋转位置编码RoPE https://zhuanlan.zhihu.com/p/667864459 ✅长文微调的流程和训练代码 🔗单卡高效扩展LLaMA2-13B上下文: https://github.com/yangjianxin1/LongQLoRA/blob/master/train.py#L123 ✅长文本压测 🔗Kimi Chat 公布“大海捞针”长文本压测结果 https://mp.weixin.qq.com/s/IC5-FGLVHzHHYqH6x-aNng ✅100k上下文的工程与数据基础方案 🔗From 符尧 100k 可以通过暴力工程实现,不需要 fancy 的架构改变 https://yaofu.notion.site/Understanding-data-influence-on-context-scaling-a-close-look-at-baseline-solution-eb17eab795dd4132b1a1ffe73f5e850a 6️⃣多模态大型语言模型 ✅多模态和多模态大模型(LMM) 🔗全面介绍多模态系统,包括LMM https://baoyu.io/translations/lmm/multimodality-and-large-multimodal-models ✅多模态有哪些主流的开源模型 fuyu-8b、llava、mPLUG-Owl2、Qwen-VL ✅多模态大型语言模型微调 🔗数据集构造、微调、评测 https://zhuanlan.zhihu.com/p/643611622 7⃣️国内外有哪些优质开源基座 ✅llama1/2、phi-1/phi-1.5/phi-2、Mistral 7B、Orca2 ✅qwen(7/14/72B)、baichuan1/2、yi(6/34B) ✅intenlm、tigerbot1/2、skywork 8️⃣OpenAI官方发布的一些技术文档 ✅【中文版】OpenAI官方提示工程指南 https://baoyu.io/translations/openai/openai-prompt-engineering-guides?continueFlag=096743c66cbaafc163912423c83a12d6 ✅OpenAI 微调文档 https://platform.openai.com/docs/guides/fine-tuning ✅OpenAI 安全对齐研究、超级对齐计划 https://openai.com/blog/our-approach-to-alignment-research https://openai.com/blog/introducing-superalignment

00
QoyAI
1年前

Kenny_肯尼: 出现AI这个新技术要素后,未来创作工具会趋向all in one,还是演变出更多细分垂类工作流产品呢?短期看,后者可能跑得更快。 去年到今年出现了一些围绕某种内容垂类做成片工作流的产品,他们利用AI的能力大大提高特定垂类视频创作的效率,所以在剪映和Premiere这些all in one的多轨道剪辑产品的统治下,找到了突破口,快速崛起。 以下三个是规模做得比较大的案例: 1. opus clip做长改短,输入youtube视频链接一键转为多个TT短视频 2. invideo做资讯知识类文字成片,输入idea,AI搜索信息生成文案,文案匹配视频素材成片 3. descript做口播类精细化剪辑,把视频通过ASR转为文案,直接通过编辑文字来编辑对应视频片段 最近看到一个很有意思的新产品Vozo,利用LLM改写+音色克隆+改口型,做影视综二创剪辑,让影视人物说新台词,带来新故事。例如下方视频,就是我对《华尔街之狼》片段,输入prompt「给capcut做推广」,然后生成小李子声嘶力竭宣传capcut的魔性短视频。 体验地址:https://www.vozo.ai/ 这种影视综二创内容垂类其实历史悠久,在抖音B站,有很多影视二创号,把影视作品例如《三国》、《西游记》剪成短视频,直接自己配音,或者通过「活字印刷鬼畜」拼成自己想说的台词,或者利用音色克隆来做《野史三国》,但都编辑门槛高。所以带来了工作流产品的机会。 而抖快B那么多内容垂类,可能还蕴藏着更多的垂类工作流AI产品的机会。

00
QoyAI
1年前

毛毛读书忙: RAG和微调的选择 我觉得95%用RAG,剩下的才是微调 前两天跟一老师聊RAG和微调,他比较喜欢微调,而我倾向RAG,当然也可能位置不一样,我的目标是成本,他的目标是创新,独立可控 *微调和RAG的区别 微调类似于考前不断学习,记忆,最终通过自己的知识积累,去参加考试 RAG类似于考前不学习,只知道查找技巧,带上纸条和书,开卷考试 区别来了, 1 问题 微调,问题随意变化,都能理解应答 RAG,问题必须直接,书里面方便查找 所以,RAG的提问要直接一点,不然从参考资料里找不到,就没法继续了 2 效率 微调,高效,直接能回答 RAG,低效,要临时查找 所以,RAG响应速度慢,并且费Token 3 成本 微调,学习时间长,成本高,还要不断训练 RAG,考啥都行,只要给参考,就能考得不错 4 更新 微调,新知识得再学习,别的课程也得再学习 RAG,无需学习,只需要不断提高自己的检索能力,并且通用,任意课程随便来,所以微调会出现幻觉,因为不会答的还是不会答,RAG只要有参考就都能回答 5 输出 微调,因为不断学习,就会有自己的风格,自己的语气和答题方式 RAG,相对生硬,就是输出答案 所以微调还有一个目标,就是训练某种特定场景的应用,比如一个辅导老师,不直接给答案,只给提示,循循善诱的教导方式,这种可能微调就好一些 *结论 说了那么多,看似微调好处多,实则RAG能覆盖95%的应用,微调因为的成本,难度,以及大模型不断迭代的速度,导致微调很容易过时,并且大多时候RAG的结果完全能替代微调,所以RAG是首选。 当然,从安全,并成本预算充足的情况下,那么微调也有很大用处!

00
QoyAI
1年前

喝鹅何说说: 斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。 这节课就是传说中的Stanford CS25中的一节讲座<Retrieval Augmented Language Models>。授课人就是RAG论文的作者之一Douwe Kiela,课程中他分享了一个检索增强语言模型的架构图。 这张图重要到让我觉得,做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡,全都涵盖在这张图的架构和问题中了。 这个架构主要包括input、prompt、通过retriever检索增强生成的context,然后把这三部分一起输入给generator即模型,最终输出output作为结果。 ❇️❇️关于这几个核心概念,值得注意的是: 1️⃣input和prompt的区别和联系在于,input可理解为既包含system prompt,又包含用户输入的检索范围的指向,而prompt则强调用户输入的指令。 🌟以公司知识库RAG举例,比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告",其中"公司2023年的财务数据"是对公司知识库检索范围的指向,应理解为input的一部分,而"检索并生成总结报告"则是指令,应理解为prompt。 2️⃣retriever的作用机制,我理解类似于在图书馆借书的过程,提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。 🌟接着上文公司知识库的例子,从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表"),对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配,提取匹配的部分作为context(涉及公司2023年财务数据的文本)。 🌟其中query和input的关系,我想到两种可能性,一种是直接把input作为query,另一种是模型基于input生成的query,架构图简化表达了。 3️⃣retriever和context之间可加一步reranker架构,对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断,也可在模型基础上预设特定规则。 🌟比如根据员工职级限制其可获取的企业知识库信息范围。 ❇️❇️目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题: 1️⃣how and what do I retrieve:从传统的相似性检索、文本检索,到目前最常用的依托于embedding的语义检索,大家在实践中仍在不断迭代。Kiela后面也提到有研究希望把整个retriever过程做成一个模型,他也在课程中构想未来应该把retriever的训练也纳入到LLM的训练架构中。 🌟文本的embedding可简化理解为文本的向量化表达,并且可根据不同文本的向量化表达,判断出文本之间语义的远近亲疏关系。 🌟目前的文本emebedding也都是通过模型来实现的,这类模型也在不断迭代。OpenAI在今年1月份推出了text-embedding-3(small和large两版),相比其2022年12月推出的ada-002模型,在性能上获得了显著提升。 🌟用于多语言检索的常用基准(MIRACL)平均分数已从 31.4%(ada-002)增加到 44.0%(3-small)和54.9%(3-large)。 🌟附图之一是OpenAI对其text emebedding模型作用机制的示意。 2️⃣When to retrieve: 一般就两种思路。一种是在获得检索范围后即retrieve,另一种是让模型判断何时retrieve。 3️⃣How to encode: 如何编码也直接影响了如何检索的过程。 ❇️❇️其他问题: 1️⃣how to pre-process: 实际上强调就是input要包含system prompt,可设定角色、技能、任务、工作流、限制条件等。 2️⃣how to prompt: 涉及提示词工程的方法论。 3️⃣how to pass context: 可以把context作为prompt的一部分以文本形式输入,也可通过代码的方式代入。 4️⃣how to post-process: 比如格式化输出的处理,如固定输出json格式,或固定在末尾输出reference列表等。 5️⃣how to verify: 指的是如何验证output的效果或质量,比如验证output与知识库的相关性、准确性等。 ❇️❇️最后,还有关于RAG整体架构的审视框架: 1️⃣How to optimize: 各环节哪些地方可以优化。架构中已经列出的问题都是思考的重点。 2️⃣How to learn: 这里的learn应该指的是机器学习的learn,探讨各环节从software 1.0的静态架构向机器学习和software 2.0的演进。 3️⃣how to scale: 如何应对规模化的问题。 🌟比如关于知识库如何chunk、何时编码,在知识库过大时就不适合提前预处理好chunk和编码。或者大量用户同时prompt该如何应对。 ❇️❇️前段时间判断过2024年会是RAG应用爆发的一年https://m.okjike.com/originalPosts/6602dca712ed2fda687ec0a3?s=ewoidSI6ICI2M2VlMjQ0NjhhMGY3NzVjODQyMmY1NzEiCn0=,自己在2B业务中也涉及RAG工程的落地,所以花了些精力来学习这节课。以上内容夹杂了不少自己的个人理解,欢迎批评指正,一起交流学习~ ❇️❇️links: 🌟Stanford CS25 V4 2024春季课程(面向公众开放,有人想一起学习搭子么?) https://web.stanford.edu/class/cs25/ 🌟Stanford CS25 V3: Retrieval Augmented Language Models https://www.youtube.com/watch?v=mE7IDf2SmJg 🌟RAG论文原文<Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks> https://arxiv.org/abs/2005.11401 🌟OpenAI text-embedding-3 models https://openai.com/blog/new-embedding-models-and-api-updates?t 🌟OpenAI text-embedding-ada-002 model https://openai.com/blog/new-and-improved-embedding-model?t 🌟Software 2.0 by Andrej Karpathy https://karpathy.medium.com/software-2-0-a64152b37c35 🌟 Kiela在讲这节课几个月后在其创立的Contextual AI正式推出RAG 2.0 https://contextual.ai/introducing-rag2/

00
QoyAI
2年前
来到即刻的第一天。
00