即刻App年轻人的同好社区
下载
App内打开
有为x
332关注173被关注0夸夸
AI创业者 / AIGC创作工具库 aigc.notion.site
有为x
11天前
腾讯云服务挂了这么久,看板还都显示正常,真 tm 能糊弄人
10
有为x
12天前
1、什么是扩散?一滴墨水充满整个杯子的过程就叫扩散。
2、Diffusion模型生图的原理,通过加噪点去训练模型,通过去噪点去生成图片,不可思议的是, AI就是在以上加噪点和去噪点的过程中学会绘画的方法。
3、 Stable Diffusion 诞生
a) DDPM:开创性提出可以用加噪和减噪的方式来生成图片
b) DDIM:提升效率,给DDPM做采样加速
c) CG: 提出可控生图
d) CFG:更有效的可控生图
e) GLIDE:OpenAI 在CFG 基础上大力出奇迹,文生图可行!
f) Latent Diffusion:潜在空间降低运算量,将扩散模型技术带入千家万户
g) LAION-5B,SD 的数据集
h) SD 发布
4、 八卦:2021 年1 月,OpenAI 发布 DALL-E,只需要说一句话就能生图,也是最早的文生图模型,但是并没有公开所使用的CLIP数据集。德国的高中物理教师Schuhmann认为如此重要看成 AI 基础设施的数据集不应该被几家大公司控制,所以决定创建一个开源的文生图数据集LAION-5B(2022/3 发布,对 SD 非常重要,超过50亿个图像和文本对,世界最大文生图数据集),但是后来缺钱,StabilityAI CEO Emad(当时还是对冲基金经理)就过来投钱买机器,最终搞出来了LAION-5B,依靠Latent Diffusion+LAION-5B+买的机器跑出来了 SD 第一个版本,但是又被 StabilityAI说成自研,那就是后话了。
核心点:Vision + 执行力
* 一名高中物理老师有这样宏大的 vision + 超强的执行力,创建了全世界最大的文生图数据集LAION-5B
* StabilityAI CEO Emad 虽不是技术出身,但是路线思考清晰,搞 AI 文生图需要高效率模型,这个latent diffusion解决了,但是没高质量数据,大公司都不公开,那么投钱开源组织搞LAION-5B,搞出了 SD。
5、 Diffusion 的整体流程
a) 最左红色部分:像素空间encoder潜在空间 、潜在空间 decder 像素空间
b) 中间绿色部分:在 laten space 进行加噪和减噪过程
c) 最右灰色部分:文字转换向量,参与控制降噪环节,每一个QKV都是transformer的每一步attention机制,每一步降噪的时候都用的 text 文字去控制它的降噪过程
6、 SD本质是一套框架(文本prompt>CLIP驱动文字转向量参与控制>diffusion在latent space通过加噪和去噪生图>VAE解码>出图)
a) CLIP:文生图,文字投射到向量空间参与降噪控制生图
b) VAE Encoder:图生图,图片参与降噪控制生图,利用 VAE 编码到潜在空间
c) Diffusion Model:扩散生图
d) VAE Decoder:扩散完decoder 为像素图片
7、 ComfyUI配置workflow实现文生图,更灵活的方式,未来的产研工作流
8、 从2022 6 月份发布第一个版本模型之后,整个生态的最重要的两项工作:ControlNet(解决控制问题)+ LCM(解决效率问题)
a) condition:可控生成
b) diffusion:LCM 快速出图,game changer
c) VAE:20 倍速度提升
d) CLIP:更好的 clip 模型,更好的文本识别
9、 SD构建的生态
a) 底层:Stability官方做 base model
b) 中间层:社区根据自己的需求围绕 base model fine-tune model(建筑类、二次元等等),ControlNet,做 lora
c) 上层:webUI 去调用,Automatic1111,ComfyUI
d) 顶层:把这些包成一个服务,傻瓜操作,C 站,吐司
10、 怎么学 AI?对于 PM,最重要的就是读 paper+动手测 demo,了解技术能力的真正能力和边界,推演未来一年的能力会拓展多少,根据这个思考204 年可以delivery 的产品)
a) 坚持读 paper做笔记,搞清楚原理,就能拿到信息差红利,也能提供产品灵感;
b) 只有看 paper才能弄清楚模型的内容,看别人的思路才直到内部的优化思路,才不会简单的把模型作为一个整体去看,细节多了可以决定成败:stream diffusion,1 秒120帧出图,主要就看通过哪些方式提升 sd 的速度,论文并不难理解,本质就是解耦,处理视频流之前最慢的就是因为串行工作流,每帧一次降噪,导致输出视频流不流程,解决方式就是先把图片降噪,并行走,第一张图出完,第二张图已经降噪好了,这样就能保证stream in stream out,流式处理。所以他们把前置的处理环节、后置的处理环节给拿出来,变成了三个独立的进程,单独去做 VAE encode 和decode,把整个给解耦开。还有个思路,就是一秒 24 帧,通过相似度计算可以丢掉一些相似图片,减少数据处理量,也会加快队列运算速度。
c) 一定要自己动手,知道顶尖的模型能干什么,不能干什么,边界在哪里;
i) 本地跑 LLM > 思考所有设备都可以对话的可能性
ii) fine-tune LLM > 了解 RLHF人类反馈强化学习,通过准备Instruct-tuning数据集发现数据格式JSONL格式,每行都包含一个prompt和一个completion,知道底层的数据格式,就能知道什么产品能直接产出这样的数据,产品的什么节点可以产出这样的数据。
iii) ChatGPT 写爬虫 > 效率快 10 被,赋能个体
iv) 创建 ComfyUI 工作流,在 comfy 里面换模型、换Lora、换controller、调参数、各种调,即时反馈,最后包装 API部署上线 > 未来产研配合新范式,产品调试工作流实时最终效果,效果ok 了直接部署
v) 入局做Dodoboo儿童涂鸦产品,让儿童输入 prompt 不行,所以做了图生文再做 prompt enhancement,图生文用 MS COCO 数据集性能不行,但是找到一个不是最SOTA 的模型反而解决了我的问题,所以说要想清楚 user case,再选合适模型和 fine-tune 版本 + comfyUI开源社区的力量 > 躬身入局最重要,需求推动我们快速掌握。
vi) GPT-SoVITS 语音克隆,借由fine-tune读技术 paper + 亲自动手理清楚整个脉络和技术边界。
11、无限推荐系统:目前的推荐系统不缺用户画像刻画,却内容攻击,如果把用户的喜好投射到一个全世界所有内容向量空间,每一个点都在用户喜好范围内,且都可以通过类似降噪的方式还原一张图片,视频或者音频,就可以达到无限内容供给,形成推荐内容→用户画像刻画→精准生成内容→精准的推荐→精准的用户画像刻画。
12、创意是稀缺的,是 AI 无法替代人类的,向量空间是多维的,我们现在所有的内容放在这个空间都是很稀疏的,跟宇宙的空旷一样,更多的未知空间还是需要人来探索的,AI 可以来辅助人类。

产品人如何学习 AI?以 Stable Diffusion 原理及发展历程为例_哔哩哔哩_bilibili

00
有为x
23天前
Q1:这轮AI浪潮为什么还没出现Killer App?还有机会吗?
1. 正常情况,历史上killer App本来都是在底层技术突破出现后的2~3年之后才出现。
1. 个人电脑时代,底层突破是1971年intel发布世界第一个cpu 4004,而第一台pc1974年后才出现,杀手级产品Apple I 更是到了5年后1976年才出现;
2. pc互联网时代,底层突破是1993年万维网开放,1994年出现第一个killer app雅虎,1995年的amazon还只是线上卖书,2009年才开始估值飙升,最大赢家谷歌1998年才诞生。国内1994年接入互联网,第一批killer app 网易,QQ,新浪1997年后才开始出现
3. 移动互联网时代,底层突破是2007年iphone发布,2009年Uber诞生,killer app 微信2011年发布,头条也要到2012年了,美团外卖是2013年,抖音是2016年。

2. 仍然有机会,现在依然是创业最好时间,创业者最优策略就是尽快进来,因为当killer app进入主流用户群的时候,意味着创业窗口期已经结束了。最重要的是:细分领域当中的赢家常常不是第一个,但大概率是第一批。
1. pc电脑最大赢家是苹果,虽然他不是第一个推出的个人电脑,但是属于第一批
2. 王兴在美团之前做过校内网,饭否;张一鸣在头条之前做过九九房,黄峥在拼多多之前做过电商代运营,游戏公司。

Q2:LLM公司未来会不会拿走AI产业绝大部分的利润?就跟现在的Nvidia一样?
不会,LLM公司拿走绝大部分利润取决于2个前提
1. AGI能否实现?分歧大,相当长时间不会!!!
目前业内分歧很大,至少相当长的时间还无法达到,如果不能实现或者在达不到的相当长的时期,意味着LLM无法解决端到端问题,必须有其他公司贴近客户和场景,提供端到端的解决方案解决垂直领域的问题;如果未来实现了,那么所有人也就没必要工作了。

2. LLM是否会垄断?不会!!!应用层价值依然巨大!
LLM价值巨大,但是不意味着具备垄断地位拿走产业大部分利润。定价权是超额收益的来源,只有垄断才能获得超额收益,就像Nvidia(GPU垄断)和微软(pc操作系统垄断)一样,哪怕是寡头市场也有由于一定竞争拿不到超额收益。

LLM想达到垄断,商业模式和业务模型需要满足几个条件。双边网络效应(如微信) + 政策准入门槛 + 超强上下游绑定关系(如微软和intel)。但这个不包含“技术领先”,无法长期垄断,因为技术会天然扩散,除非技术能持续进步+长时间达不到天花板,比如台积电,技术长期领先,但是无法控制技术扩散,仅在先进制程获得垄断地位,但是成熟制程有众多竞争者,Nvidia也是如此,不会一直维持现有垄断状态。

Q3:这轮AI浪潮带来的机会是大厂的机会,还是创业公司的机会?
1. 都有新机会,大厂是改造提升现有业务,创业公司是创造新价值和新场景。
2. 移动互联网时代,四大App(IM、打车、外卖、短视频),并没有颠覆上一代PC互联网时代公司的任何业务,QQ和淘宝依然在,所以新技术带来的优势是要解决新问题,而不是做更好的上一代产品(不认同,只要提升价值够高就是机会)。
3. 从应用层来看,2B应用可能会迎来跨越式发展,核心还是基于AI能带来大幅的降本。

其他
1. 创业是一个特别耗费心力的过程,韧性(resiliient)非常非常非常重要。
2. 做AI应用要尽量预测LLM的能力变化,不要局限现有的技术边界,要想着未来技术会更成熟,产品会因为LLM的提升而可以实现了,同时不要做跟LLM竞争的事情,LLM能力变强了应该你的应用也要变强。

议古论今:聊聊现在AI应用层创业者面对的三个问题

14
有为x
1月前
1. AI是一场社会变革,而不仅仅是科技变革。
2. AI对社会的影响就如同蒸汽机带来的第一次工业革命对我们的影响,现在测评LLM和当时测评蒸汽机一样没太大意义,我们更应该思考的是:AI时代带来的生产力革命是什么,我如何不会被这次技术革命所淘汰,AI时代的纺织业是谁,AI时代的大农场主和小农场主又都是谁?
3. AI创业旅程最核心的是寻找信号,去掉噪声。讲LLM性能,LLM价格,芯片价格的都属于噪声,只有思考AI给我们社会带来什么影响的才是信号!
4. AI Agent就是未来,AI现在干的事情就是源源不断的将全世界最优秀的学生以廉价的方式送到你手上,GPT本质就是一个主动的,上过学的,超级学徒,即AI Agent,他可以通过不断的学习和模仿来提升自己的能力,所以他最终能干什么取决于你怎么培养调教他,我们需要通过耳濡目染的方式把我们的认知教给这个学徒。
5. 大模型公司在为我们培养学徒,和我们的关系就像是学校和企业,意味着我们是合作关系而非竞争,GPT越强对我们就越有利。
6. AI时代衡量企业一号位的价值是:你能教学徒什么,你能带几个学徒?
7. AI时代,你会被放大1000倍的能力是什么?GPT能力代替你90%的能力,但是却能放大你剩下的10%的核心能力,那么是什么?“行业领域的深度认知”就是能被放大1000倍的那最核心的10%!所以一定要找到自己的核心能力!最大化这个能力!
8. AI时代,培养Agent只是手段,最终目的我们要带着Agent去做生意,哪些行业可以被重塑呢?两个点1)人力密集型的,工具密集型的,靠大量沟通和情绪创造价值的行业;2)越虚拟,越线上、越无接触、供应链越简单的,重塑机会越大;
9. 一个非常大的机会是“乙方公司的甲方化”,就是把自己的核心认知变成带着一帮Agent去做甲方生意,变成竞争关系而非合作关系,未来人力外包市场肯定会极大缩水,现在的咨询公司和第三方服务公司应该意识到这个变化。
10. AI会帮助人类进入超级创造者时代,GPT可以弥补人的局限(受限时空,受限输入,受限心力),每个人都是超级创造者,我们就不再是补短板,而是找到长处,利用Agent规模化放大。
11. AI会带来生产力指数级爆发,核心就是AI Agent,世界上会有源源不断的Agent代替人来做事,带来科技爆发,所有的生意都会被重塑,会有源源不断的创业机会,找agent,调教agent,构建agent,为未来的社会构建基础设施。
12. 每个创始人都是一颗有生命力的种子,而生命力就是一个人与生俱来的那种坚韧、突破、韧性,是这个东西让我们今天坐在这个地方,是这个东西让我们人类的文明一次一次的突破和进展,是这个生命力,让我们曾经从一片荒芜里面走起来,是这个生命力让创造者得以发光、发热、突破和成长。

张津剑:如何抓住AI带来的创业信号?(精华文稿)

11
有为x
2月前

歸藏: Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。 如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具,那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎,能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解,而这一切都是通过先进的去噪技术和梯度计算实现的。 我甚至猜测,Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能! 下面我们来详细分析一段视频。这段视频的提示是:“一杯咖啡里,两艘海盗船相互战斗的逼真特写视频。” •视频中,模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来,它们在避开对方的同时,动作流畅协调。 •还有咖啡的流体动力学表现,包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支,通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真,几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸,并运用了移轴摄影技术(Tilt-shift photography),为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应,但模拟器还是根据我们的期望,准确实现了物理规则。 接下来的步骤是:引入更多的模态和条件变量,我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。

00
有为x
3月前
“用大模型去做某种更复杂的,更游戏化的聊天体验,能够被人喜欢,至少在年轻人这里,是得到了初步证明的,而之后的问题则是,如何降低成本,如何构建好的商业模式,以及如何拓展到更多的方向上,而对于这些,经此一役,我也有了不一样的感受。”

哄哄模拟器的完整复盘,火了,但一度让我很发愁

10
有为x
3月前
1. 这一波的GenAI跟上一波的移动互联网浪潮不同,更像是上世纪70~80年代的个人电脑浪潮;
(1)移动互联网是“场景扩展”,而GenAI是“效率提升”;
(2)移动互联网让我们从一个固定场所上网变成了随时随地上网,用户基数从2亿网民扩大到了14亿网民,催生了无数新场景。(3)GenAI不同,带来了3个最大变化,1)创意供给;2)老场景提供新体验;3)替代重复性专业工作;4)最后才是新场景
2. 这一波的AI应用层公司像消费电子公司;
(1)要关注供应链管理;AI应用公司是获取所需资源和技术,整合成可销售的产品或服务,上半年GPT4限量供应,谁能拿到就能具备更大的优势;
(2)要关注定价;GPT4成本降价,那么产品售价是否要变?好像不对,应该是定价不变,要给更多东西,比如新一代小米手机,高通变强了,定价不会跟着变;
(3)要关注渠道和毛利率;规模化之后如何维持毛利率,形成收入>研发>投放>收入的正循环;
(4)要关注品牌;让客户想到应用的时候能直接想到你;
(5)LLM进化是长周期的而不是推荐这种用户数据能快速反馈到算法中迭代,大家干的事还是根据自己的业务场景来调整大模型,像小米公司采购索尼摄像头,根据自己业务逆光也清晰来微调。
3. AI应用领域的商业逻辑:做PMF要花多少钱,就投多少天使,搞完之后就是GTM需要多少钱,再投一笔Pre-A,搞出来,然后再看未来空间给估值,再给投资。
4. 中厂干AI是有历史包袱的,有赞的SAAS面临的困境:客户源源不断的需求 > 必须要做 > 满足5%的客户却让95%的客户觉得难用 > 影响另外95%客户的交付 > 提出需求 >>>>
5. 有赞对AI的实践
(1)理解用户意图,功能使用
(2)营销创意供给;文案生成
(3)copliot;insight探索
(4)自动化执行、监督、归因
6. toB和tocC对AI的使用
(1)toB,把原生的工作流先AI化去做效率的倍数的升级,独特优势不担心被AI颠覆,独立闭环持续的数据 + 交付作业流程
(2)toC,做原生应用。旧场景有新体验,利好独立开发者,GenAI就是魔法
7. 什么样的应用不会被LLM覆盖
(1)toC:比拼的是全方位,不仅仅是LLM,所以正确的事情坚持做,比如积累用户数据,更多上下文等等,先干再说。
(2)toB:就是拼对工作流的理解,如果LLM能直接交付工作流,且工作流能给结果,那就被覆盖。结果有2个,增长会发生 OR 效率会优化
8. 中美SAAS生态区别
(1)美国,客户会主动找解决方案,原意付钱,所以大家都做单点,客户自己拼。
(2)中国,客户不会拼工作流,付费意愿不强,所以必须all in one,否则成本hover不住;
9. AI Native的设计思维:通过产品设计,让用户生产模型能用的数据。
10. 有赞干的事“最佳实践”,北极星的前置指标,类似Aha时刻,用户购买了系统成交了6800大概率会续费,就扑上去达到这个目标。
11. AI时代人际交互的变化
(1)toC:GUI & CUI 并行,20%GUI + 80%CUI
单点价值创造,流程短,目的明确功能少
设备没有发生大量变化下,CUI不会是主导地位
可能分两类,过程不爽的会CUI化(比如买机票),过程爽的会继续保持GUI(比如购物)
(2)toB:
解决的是企业内部工作流,流程长,目的有的时候没那么明确,功能又多
GUI & CUI 并行,40%GUI + 60%CUI
12. 有启发的AI产品
(1)perplexity,早起就是套壳产品,bing api + gpt api;
输入框是多行,区别google的单行,意味着可以处理多段话,ai native思维
先出答案,而不是google的都是链接
直接向用户收费
(2)微软copilot,解决了一个llm可控性问题,微软的方案,搜索加强 + coplilot
13. 怎么看待AI Native,没有历史负担的做干AI就是AI native
14. AI时代的产品经理,回到了起点,宝洁定义的产品经理!一个人就是一个团队!!!懂LLM技术边界,对成本的理解,懂市场(逆光也清晰的需求 >>> 底层的技术微调),对用户需求理解 + AI涌现的想象力!!!
15. AI时代,创业机会少,但是生意机会多!创业需要规模化盈利,目前很难了,但是做生意只看ROI,正的就成!

148.大模型年终复盘:现在是个体户的好时代!

乱翻书

15
有为x
3月前
最后一个章节提到了AI大的机会展望
1、人力密集型的传统外包改变,AI集中化整合降本增效,代码外包,广告外包,财税外包;
2、AI时代的分众传媒机会,如果抖音20%的视频都是我们工具和算法去生成的,那么我们就可以把控用户和内容,我们可能就是AI时代的分众传媒。
3、双边内容平台的改变(抖音。。),GenAI可以看作是有无限内容可能性的内容库,那么未来的内容供给可以由AI定制,双边就会变成单边了;
4、双边电商平台的改变(京东,滴滴,美团。。),线下供给结构,以前是推单一的标准服务(打车,买菜,酒店),未来就是通过多个ai agent打包多个服务定制解决方案

24、25 年会是下一代浪潮最关键的两年 | 42章经 AI 年终复盘

00
有为x
5月前
OpenAI 11月6日开发者大会总结
1. GPT-4 Turbo - 降价,更快更强更便宜更稳定+多模态
2. GPT-3.5 Turbo - 降价,加量不加价
3. 输出稳定可控 - 业务稳定性大大增强
4. DALLE-3 & GPT-4 Vision API,多模态
5. TTS & Whisper V3 API - 降价,对标世界最强11labs,但价格只有其1/20
6. GPTs & GPT Store - 类似C.AI,GPT版本的AppStore,小白都能做有分成
7. Assistants API - 最大亮点,为每个应用定制助理,完全融入系统的Copilot
8. Consistency Decoder - 替代SD的VAE解码器
ygmxi12rz7.feishu.cn
00
有为x
6月前
GPT4(All tools) 这个诊断挺准确的。
22