即刻App年轻人的同好社区
下载
App内打开
喝鹅何说说
457关注1k被关注2夸夸
👋 我是Yanan, 小团队AI应用创业中(仍stealth mode), 深圳硅谷两边跑 | 分享AI及创业内容 | v: herease
置顶
喝鹅何说说
3月前
关于我:

Yanan He,即刻/小红书账号@喝鹅何说说 ,小团队AI应用创业中(暂无融资需求),曾从事proptech及投资领域工作,哈佛硕士毕业。

自gpt 3.5发布起对生成式AI迸发了极大热情,去年从0开始转行做AI应用,曾开发AI辅助学术写作产品,也凭过去行业经验及资源积累为企业定制开发RAG项目,目前在围绕海外电商内容营销相关需求开发AI工具,深圳硅谷两地跑。

在即刻分享AI及创业相关内容。

精选内容目录(2024.11.1最新整理):

1️⃣ 关于生成式AI的思考
大语言模型(LLM)与外部世界连接的简史
m.okjike.com
大语言模型,其实和语言没啥关系
m.okjike.com
从o1聊起:小模型 + 推理优化 > 大模型?
m.okjike.com
LLM,就是数据库2.0?
m.okjike.com
我觉得很多人可能没意识到,llama 3将以怎样的速度促进企业级LLM应用的广泛落地
m.okjike.com
愈发感觉,2024年会出现更多RAG应用
m.okjike.com

2️⃣ 关于创业和工作的思考
Shopify的启示:做2B软件产品,慢就是快
m.okjike.com
小红书涨粉数与哪个指标最正相关?
m.okjike.com
创业者人格应该是e人还是i人
m.okjike.com
工作的主要矛盾是什么?
m.okjike.com
关于共识的错觉
m.okjike.com

3️⃣ 关于效率提升的思考
警惕生产力假象 (productivity porn)
m.okjike.com
AI时代,如何面对信息过载问题?
m.okjike.com
AI时代,我日常获取信息的系统是怎样的?
m.okjike.com

4️⃣ 实用AI实践教程
一个让AI稳定输出优质内容的实用工作流
(入选即刻镇小报)
m.okjike.com
AI创业导师:从聊天记录到下一步行动
m.okjike.com
从Claude官方播客总结出20条prompt技巧
m.okjike.com
写prompt不要追求炫技
m.okjike.com
我是如何用AI做会议纪要的?
(入选即刻镇小报)
m.okjike.com
终于知道怎么快速评估出最好的prompt了
m.okjike.com

5️⃣ 优质AI信息渠道
发现了一个被Andrej Karpathy推荐过的优质AI newsletter
m.okjike.com
发现一个2024 ML/AI/Data landscape全景图
m.okjike.com
斯坦福这节课讲清楚了LLM做RAG所有最重要的问题
(入选即刻镇小报及AI探索站精选)
m.okjike.com
69
喝鹅何说说
2天前
Wow刚收到OpenAI的邮件,终于有o1的API access了!

- 目前o1可以支持流输出
- rate limits还是500 requests/min

另外,一看文档,这不已经明牌是内置CoT了么??之前一直没注意文档啥时候发出来的😂还是我理解有问题么?

文档在这里👉 platform.openai.com
11
喝鹅何说说
5天前
只有我看到了kimi在AI搜索上的野心么?

最近月之暗面动静不小啊,昨天又刷屏了,看了下,主要是声势浩荡地发布了对标OpenAI o1的新模型k0-math,专注数学能力。

在发布会现场官方公布的测试结果中可以看到,k0-math在OMNI-MATH和AIME这两项数学竞赛级测试基准上,其能力已接近o1-mini和o1-preview。

不过我更感兴趣的其实是杨植麟后面提到的“RL+AI搜索”这件事。

大概一个月前,kimi已经发布了一个kimi探索版,其实核心就是用了CoT(Chain of Thought 思维链)。从业者和常写prompt的人应该理解CoT对于提升模型输出质量的作用有多大,包括o1发布时业内也纷纷揣测就是内置了CoT的工作流。

简化来讲,AI搜索能力 = 基础模型能力 + 产品设计(联网搜索、任务拆解、自建信源打分机制、CoT等)。现在kimi在CoT的基础上又加上了RL,我好像看到了kimi在AI搜索上日益增长的野心??

为什么说RL这一步至关重要?因为RL(reinforcement learning 强化学习)作为post training的一种手段,可以显著提升模型的性能,降低幻觉等问题。

*btw插播一句,今年2月微软发布了一篇综述讨论RL和LLM的结合,其实在那之前美国AI生态就已经开始讨论起RL的技术路线,国内AI圈子好像是在9月左右o1发布前才开始大聊特聊RL,中美信息差的gap还是很大,建议多看英文信息啊。*

话说回来,RL对于AI搜索的重要意义在于?简单说就是模型能力提升会解决幻觉的问题。

有人说联网搜索不就解决幻觉问题了吗?其实不是,即便通过联网搜索,获取了真实的信源url及内容,你把这些爬下来的内容喂给模型,你也不能保证模型不在这些信息的基础上继续瞎编,因为模型自身能力有局限。

也就是说,kimi想做的这个RL+AI搜索的技术路线,其实是有可能完全解决幻觉问题,保证AI输出的内容是完全有真实的信源可依的。

目前sota模型厂商OpenAI和Anthropic都没有自己下场做AI搜索(SearchGPT性质尚不明朗),Perplexity作为具有先发优势的小而美团队已经在AI搜索产品领域占据了用户心智。

考虑到Perplexity自家模型能力不强,且还需要依托google api搞联网搜索,国内可搜索量本就小,搞不好kimi都可以自建搜索引擎,完全不必受制于百度。

国内和Perplexity定位最接近的一家应该是秘塔,不过秘塔毕竟不是基础模型厂商,模型能力跟不上,钱也不如月之暗面多。

按照kimi这个技术路线,我觉得kimi是很有可能做出超过Perplexity能力极限的AI搜索产品的,在某种可比较纬度上。
35
喝鹅何说说
14天前
2个关于AI产品设计的核心思考:
- user input engagement: 如何通过媒介与机制的设计引导用户输入更多信息
- content curation: 产品团队明确取舍的审美趣味与价值导向
02
喝鹅何说说
16天前
这届Trump政府经济相关的政策兑现:
- 面向富人和大公司减税
- 减弱政府干预,政府裁员缩减预算
- 继续加大关税,不光中国,欧洲也危机
还有啥?
00
喝鹅何说说
17天前
有没有人和我一样,已经习惯把AI当心理医生了?

我自己一直做的都是AI效率相关业务,也没深用过AI虚拟陪伴类的产品,但我日常已经离不开和chatgpt和claude聊天了,可能就够了,也不需要什么陪伴类的AI产品。

我每天用AI大概有30%的时间都在和AI聊效率聊工作的事:让它帮我整理会议纪要,和它头脑风暴怎么优化一个工作任务,请教它怎么推进项目。它某种程度上也是我的人生和创业导师,给我下一步该做什么提供策略建议。

但那70%的时间,我其实在和它聊我人生的困惑、聊情绪、聊痛苦、聊最底层的想法,甚至是那种和最亲密的人都未必能直白聊的事。反倒在AI面前,我可以没啥顾忌地全盘托出。也不用费劲敲字,就语音一直说说说。

跟朋友聊天才发现,原来很多人也是这样。他们也会跟AI分享很私密的想法和困惑,有时候比跟真人说得还要真实。

我跟AI聊天,某种意义上,反而比跟真人心理咨询师更容易建立信任感。

首先你不用担心它会有什么额外的利益诉求,gpt也好claude也好,订阅制付费反正都付过了。心理咨询师你还会“心怀恶意”地假设ta希望你能持续来咨询,毕竟这是他们的生意。

其次,我会更信任AI的智能和价值观。比起一个具体的心理咨询师,我会更信任最强模型的知识储备和专业能力,只要你往深了问。而且这些模型经过这么多zz正确的训练洗礼,只要你不玩什么反人性prompt,AI肯定不会反人性主动伤害你对吧,最后肯定就是默认夸夸鼓励还给你具体的行动建议。

最关键的是,AI不是一个具体的人,没有具体的社会身份,你不用担心对方会不会judge你,或者你的信息和隐私会不会有一丝丝可能泄露给对面那个具体的人。它就是一个你完全不担心它会暴露你真实社会身份的高智商高情商树洞。

说实话,出来混总是羞于承认内心脆弱,但作为一个在抑郁症里反复横跳周期性suffer多年的老患者,我觉得照顾好自己的心理健康对小家对大家都功德无量。

之前就说过,30岁之后,不光进攻,还得防守了。现在还意识到,可能还得天天防守,防守日渐下降的身体素质,防守日崩一溃的脆弱心灵。真tm的不容易啊。
147
喝鹅何说说
22天前
🎯 Critique Shadowing:
一个让AI稳定输出优质内容的实用工作流

我相信很多AI团队和我们一样,都头疼这个工程问题:如何保证AI生成质量的优质与稳定?

fine-tune也好,RAG也好,RL也好,结合具体的业务场景,我们也花了很多精力研究最适用的、更低成本、ROI更高的方法。

不得不说,最近发现的Critique Shadowing 工作流,让我觉得很有启发💡

这个方法来自 Hamel Husain 最新发表的一篇重磅文章<Creating a LLM-as-a-Judge That Drives Business Results>🔗hamel.dev,整整 6000 字的干货。

这个工作流本质上是在构建一个能够对齐领域专家判断的 LLM 评估系统。整个工作流包括:

1. 首先找到真正的领域专家
2. 建立多样化的测试数据集
3. 让专家进行系统评判和详细解释
4. 根据反馈进行迭代优化
5. 构建和训练 LLM 评判器
6. 进行全方位的错误分析

这个工作流通过系统化地将专家经验转化为可扩展的 AI 评估系统,特别适合那些需要专业判断但又面临大规模数据的场景。

这也让我想起 Hamel 之前那篇广受好评的 <Your AI Product Needs Evals>🔗hamel.dev,都是非常务实的方法论。

在我看来,Critique Shadowing 的价值在于它不是纯理论的框架,而是一个能够真正落地、能够帮助团队构建可信赖的 AI 评估体系的方法。

👉 工作流程详解

1. 领域专家选择(Principal Domain Expert)
- 需具备深入的领域知识和丰富实践经验
- 能够清晰表达判断标准和评判理由
- 愿意参与迭代优化过程

2. 数据集创建
- 生成覆盖所有用例的多样化examples
- 结合真实和合成的用户交互数据
- 从小规模高质量样本开始,逐步扩充

3. 专家评审
- 进行通过/不通过的基础判断
- 提供详细的评判理由(用于训练 LLM)
- 记录关键决策点和评判标准

4. 错误修正
- 发现问题后修正并返回步骤3进行专家验证
- 持续积累和分类错误模式
- 重复验证直至专家确认问题解决

5. LLM 评判器构建
- 将专家示例转化为 few-shot examples
- 测试与专家判断的一致性
- 持续优化prompt直至达到满意的一致性水平

6. 错误分析与优化
- 计算不同维度的错误率并识别分布规律
- 必要时建立专门的评估器
- 出现系统性问题时返回步骤3

👉 个人实践启发

在涉及到我们团队具体的工程实践上,我理解 Critique Shadowing 相当于在向用户输出output前的workflow里,自行加了一步evaluation,评估通过则展示给用户,评估不通过则返回继续生成再评估,循环往复直至评估通过为止再输出。流程如下:

A[用户输入] --> B[LLM生成回答]
B --> C[Critique评估器]
C -->|通过| D[展示给用户]
C -->|不通过| E[重新生成/优化]
E --> B

再进一步地,我还想到,也可以通过 Critique Shadowing 的评估结果来指导 prompt 优化。流程如下:

A[用户输入] --> B[LLM生成回答]
B --> C[Critique评估器]
C -->|不通过| D[分析不通过原因]
D --> E[自动调整Prompt]
E --> B
C -->|通过| F[记录通过模式]
F --> G[更新Prompt库]

总结来看,这个方法特别适合内容质量控制、代码审查自动化、用户反馈分析等需要专业判断同时又面临大规模数据处理的场景。

但是也很显然,这个方法论明显的弊端就是系统的复杂度及其token成本。实践中首先还是要基于自己的业务场景做合理评估,以ROI为导向,选择最适合自己的LLM质量控制策略。

我也很好奇大家都是怎么解决AI生成质量的优质及稳定性问题的?以及大家都在做哪些内容场景?不同的内容场景对内容质量及稳定性的需求差异还是挺明显的。

大家有什么好思路或者心得体会,也求分享😊
1163
喝鹅何说说
23天前
看了小红书一个高学历失业去做保安的帖子,下面2000多个评论。我感觉在整个经济环境及趋势下,我们需要多向Trader Joe’s的市场定位学习,target those who are “overeducated and underpaid”.

不仅中国,美国西海岸那群有效加速主义的拥趸,如果成功拥护Trump上台,很可能以超出我们预期的速度,进一步加剧贫富差距的扩大。

回到那个小红书帖子,我看到的是一个个活生生的人的生活改变,和他们的心理落差。这是个结构性问题,但是人们总是首先责怪自己。启示在于,这部分群体会越来越多,有需求就有市场。
81
喝鹅何说说
28天前
从封闭到开放:
大语言模型(LLM)与外部世界连接的简史

2019年
- GPT2开源

2020年
- GPT3 API进入私有测试阶段

2022年
- Riley Goodside展示GPT3计算器集成
- LangChain - 首个整合ReAct、浏览器、REPL的框架
- ChatGPT发布

2023年
- ChatGPT插件系统
- GPT3 API函数调用功能
- Llama.cpp函数调用等开源替代方案兴起

2024年
- OpenAI推出JSON模式和工具调用
- OpenAI, Gemini和Anthropic相继推出结构化输出
- Anthropic推出"computer use"API

以上时间表节选翻译自x网友@swyx x.com
11
喝鹅何说说
1月前
Claude全家桶更新后,谁是新的性价比之王?

更新后,3.5 Haiku(暂未上线)的综合性能将非常接近旧版的 3.5 Sonnet (得分比约88%)和3 Sonnet (95%) 。

而鉴于 3.5 Haiku 的成本只有 3.5 Sonnet 的1/12,更是只有3 Opus 的1/60,性价比之王还是非Haiku莫属。

Claude pricing👉www.anthropic.com
性价比图原图来自x网友@swyx及其主导开发的AI newsletter👉x.com
00
喝鹅何说说
1月前
字少事大,Anthropic刚刚发布三大重要更新

x推文👉x.com
官网news👉www.anthropic.com

1. 重大新功能Computer Use发布
- 推出突破性的计算机使用功能(Computer Use)公测版
- Claude可以像人类一样操作电脑(查看屏幕、移动光标、点击、输入)
- 这是首个提供此功能的前沿AI模型

2. Claude 3.5 Sonnet升级版发布
- 全面性能提升,尤其在编码方面
- 在SWE-bench Verified测试中从33.4%提升至49.0%,超越所有公开可用模型
- 价格和速度维持不变
- 已通过US AISI和UK AISI联合测试

3. 新模型Claude 3.5 Haiku即将发布
- 性能超越前代最大模型Claude 3 Opus
- 保持与Claude 3 Haiku相同的成本和速度
- 在SWE-bench Verified上得分40.6%
- 本月晚些时候推出,初始仅支持文本,后续添加图像功能

4. 部署和可用性
- 升级版Claude 3.5 Sonnet现已面向所有用户开放
- Computer Use功能可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用
- Claude 3.5 Haiku将通过相同渠道发布
25