即刻App年轻人的同好社区
下载
App内打开
雅芳af
236关注545被关注0夸夸
搞过NLP、CV(基础)
目前学习大模型和深入了解行业
在这里分享AI相关的所见所思,还有我的进阶日常~
vx:just_flow_
置顶
雅芳af
1年前
目前在运营一个开源AI技术社区,除了专业的运营能力,我认为对AI行业、技术发展动态和趋势的掌握也非常重要,因为这是全局视角,会让自己更了解清楚自己在做的这件事情。

在技术方面我会每日追踪热门AI项目,为了养成日常对行业发展动态了解的习惯,我给自己立了个flag,工作日每周一-周五,在即刻上同步更新我追踪到的AI行业、技术动态,方向大致如下:

1️⃣行业:AI应用、垂直行业(教育/法律/金融)、投资等
2️⃣技术:AIGC、大型语言模型(LLM)、RAG、agent、具身智能、多模态大型语言模型(LMMs)等

整理了往日分享的一些内容:
✅2023年终总结:这一年,AI行业和技术发生了什么?m.okjike.com

✅2023年,大模型开发者都在关注和开发哪些热门技术?m.okjike.com

✅KimiChat长文本对话能力超强,背后的大模型技术路线和产品观:m.okjike.com

✅如何运营好一个AI技术社群
m.okjike.com
m.okjike.com

✅社区产品冷启动方面的一些思考m.okjike.com
m.okjike.com
101
雅芳af
2天前
CCS•东京站cool!@-Zho- @西琦AJ @宙宙 @屹州Yizhou 等组织很🐮。
ComfyUI作者狐狸哥也连线了~TQL!(作者分享我也做了总结,放在评论区)

听了Purz、Shane、@海辛Hyacinth 等一些艺术创作家的分享,真的赞叹太强了,把AIGC技术融入艺术创意到极致!太酷辣🧿🔮!

也期待我们有更多产品方案和各位朋友即时同步和更新,提高大家的创作效率。🥺
30
雅芳af
5天前
来到了哆啦A梦的故乡🤓
00
雅芳af
24天前
周末清华hackthon打工的一天 终于在北京吃到了正宗的福建扁肉…😃
00
雅芳af
1月前
谢聪哥赠书🥳
00
雅芳af
1月前
参加42章经线下活动,42章经内容和活动优质高质量大家都知道,就不多说了,推荐大家参加。

今天主要是去学习Albert还有其他朋友的思考逻辑的,尽管不同市场、产品不能套用一套方法,但还是有几点感悟:

1.要研究和学习行业规律,事情才会有反馈,憋着劲很难搞
2.怎么理解产品的PMF,即用户/场景/交付,为什么人,解决什么问题,怎么定义解决了
3.环境Trigger价值足够高,才能让用户变成“必须去做”。
举例:一瓶矿泉水,一瓶果汁,一瓶冰水,你选哪瓶?
加上环境trigger,外面温度40℃,你选哪瓶?
30
雅芳af
2月前
“o1出来后,从原来的GPT的预训练思路,变成了今天的自主学习的道路,就是在推理这一步强化学习,不断地自我学习的过程。整个过程非常像人类思考问题、分析问题,也需要非常多的算力才行。”

沈向洋在青年科学家50²论坛的演讲全文:关于大模型的10个思考

00
雅芳af
2月前
饿着肚子是走不出新街口北大街的…🤪
30
雅芳af
2月前

Diiiii: 对GPT o1的讨论,推荐《张小珺商业访谈录》和《晚点聊 LateTalk》最新更新的播客。这两期听下来,对于 GPT o1以及背后的强化学习范式能够建立更好的理解(虽然里面有不少猜测的成分,毕竟 OpenAI 公布的内容太少)。 个人的一些 key learning: - 关于 scaling law。Scaling Law 可以进一步拆分为 pre-training scaling law 和 post-training scaling law 两个乘数,前者目前遇到了瓶颈(国内的 GPU 租金都开始降价了),而这次 GPT4o 更多是在后者上开出了一片“第二座金矿”,指出未来一个新的优化方向。 - 关于强化学习。强化学习提升推理能力可以分为三个环节(用教中学生搞奥数来举例):prompt(做什么题), 探索方式(如何做题,怎么分步骤,如何总结题型、举一反三等),reward model(做完题后老师如何给反馈)。个人理解,对应到 AlphaGo 上,prompt 对应策略函数 policy-network,决定各个位置的落子概率,探索方式对应蒙特卡洛树,reward model 对应局面评价函数 value-network。 - 关于幻觉。强化学习可以显著降低大模型的幻觉,主要原因有二。第一,现有的预训练模型范式做的是相关性而不是因果性,更多是通过统计概率来计算相关的选项,比如“生病了”和“吃药”之间相关性很高,输出生病了应该吃药;而强化学习是通过探索来得到因果推理,这次生病了之后试试吃药,结果病好了,下次生病了之后试试不吃药,结果病没好,正例+负例的 reward 让模型学会了生病与吃药之间的因果性。第二,之前的预训练模型范式要求模型一次性直接输出结果,且不可撤回,而强化学习的范式支持大量试错,在一定时间内(目前的 preview 模型大概 10-20 秒)可以自我修正。因此,大模型的幻觉在理论上来说应该会更少,对应的是推理阶段的计算开销更大。 - 关于 self-play。吴翼老师认为,本次强化学习的关键在于主动探究的范式,在于 chain-of-thought 和 reflection,而不是自对弈(self-play)的生成能力。(个人的理解是更像是 AlphaGo 而不是 AlphaZero。)自对弈针对有对称性质的任务(例如下棋,例如玩游戏,两个玩家的属性相同)来说格外有效,因为对称的双方可以共同进化,进而不断 push 对手(类似 GAN )。但很多问题不具备对称性质,例如数学(出题和做题并不严格对称),所以未必适用。这样看来,之前所理解的,数学和编程由于其具备标准答案而更适合 self-play 的重要性可能被高估了,这意味着这种方法的通用性更强,更多的垂类都有打开的可能性。相比之下,袁进辉老师则猜测这次模型的进化关键在于 self-play,在数学和编程领域生成了大量 chain-of-thought数据,然后这些生成的数据可能直接用于预训练或continued pre-training,也可能用于 post training 训一个reasoning model / policy network。 - 关于 human in the loop。吴翼老师判断,现阶段的强化学习还是需要 human in the loop,人类的标注还是不可或缺的,只不过标注的量级相比预训练阶段小很多。换句话说,或许通向 AGI 的过程是一个人类参与方式越来越少、越来越精的过程,第一代大模型需要人类提供海量的语料,而到了强化学习阶段,人类可能只需要少许高质量的点评(或许小两个数量级),下一个阶段或许只需要轻轻点拨一下。袁进辉老师甚至认为,这次 4o 在 inference 中的很多思维链其实是人工 rule-based,比如数学中的各种解题方法,编程中的经典算法,比如日常思考中的决策树等等。 - 关于泛化性。吴翼老师举了 ChatGPT 在 RLHF 中使用强化学习的例子,认为在预训练模型足够好、数据足够、反馈合理的前提下,强化学习可以带来很好的泛化效果。(小道消息是 OpenAI 内部也对此很有信心,等 4o 正式版。)因此,或许短期内(2年)由于数据和 knowhow 限制,在某些领域会有一些垂类模型,但长期来看应该还是大一统的模型。 - 关于预期。本次的 4o 只是 preview 版本,可以关注正式版的能力。另外,可以认为 4o 只是强化学习这条路上的 GPT3,是开端,所以要调整预期。最关键的是需要关注其未来的天花板在哪里。

00
雅芳af
2月前
北京进入到了最美的季节~
00