AI探索站

71719人已经加入

punky
6天前
Andrej Karpathy 的《Let's reproduce GPT-2 (124M)》视频真是学习 LLM 的至宝，虽然时间有点长（4小时），但完整跟下来收获巨大，强烈推荐。
如果你和我一样，一步一步地跟着增加、修改代码，而不是拿着最终结果 repo 里的代码去直接运行的话，有个小坑：见图 1，红框中的代码，在原视频中是在 L500 loss.backward() 之前才调用的，但如果这么做的话，会导致 loss & HellaSwag eval 没有视频里的效果好，训练完成后没能超过 OpenAI GPT-2 124M checkpoint，见图 2。
需要像红框中代码一样，model.require_backward_grad_sync 放在 forward pass 之前，就能成功复现出来了，参见图 3（所以要注意 repo 里带有“# added after video”的 comment😅）
26 19
Szhans
9天前
🚀 AI 里程碑： ChatGPT 推出 GPT-4o mini，时代再次拉开了新的序幕

✨ GPT-3.5 落幕， GPT-4o 时代全面开启

AI 一天，人间一年。不少即友都还清晰记得去年3月15日，GPT-4 登场时横扫科技圈的激情。不过，这一次不再只是极客们的狂欢，而是全球互联网用户的升级——

今天，当你打开ChatGPT 时，无论免费还是付费用户，GPT-3.5 被全面替换为了GPT-4o mini，这个更智能更小型化模型的表现，令人印象非常深刻。从Hans 的商业视角看，这个界面上的一个微小变化，成为了新时代的序章。 [1]

（首发于即刻，未经授权不可转载）

💪 剑指 Google 、Meta 和 Anthropic，强大的GPT-4o mini 比 GPT-3.5 还便宜60%

在全面取代 GPT-3.5 Turbo后， 4o mini 成为 OpenAI 提供的最小模型。 Open AI 官方提供的评测数据显示[2]，4o mini 在基准指标 MMLU 上的得分率为 82%，而 Gemini 1.5 Flash 为 79%，Claude 3 Haiku 为 75%。在衡量数学推理能力的 MGSM 中， 4o mini 的得分率为 87%，而 Flash 为 78%，Haiku 为 72%。

从性价比对比图3 中，第三方机构 Artificial Analysis 的评测结果显示，4o mini 与 Gemini、Llama 和Claude Haiku等小模型相比，有着惊人的实力。 [3] 其价格为 0.15 美元/100 万个输入代币和 0.6 美元/100 万个输出代币，开发者今天就可以使用。

简言之， Open AI 实现了一个相对其规模而言超高性价比的前沿模型，无论对于普通用户、开发者和整个生态创新而言都是巨大的进步。

正如 OpenAI 产品 API 主管 Olivier Godement 表示，“ 要想让世界的每一个角落都能被人工智能赋能，我们就必须让模型的价格更加亲民。"我认为 GPT-4o mini 确实是朝着这个方向迈出的一大步。”

🌳 看不见的森林隐秘生长

又小又强，还多模态？在Open AI 公布的部分合作伙伴案例中，提到与 Ramp 和 Superhuman 等公司合作，发现 GPT-4o mini 在从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件回复等任务方面的性能明显优于 GPT-3.5 Turbo。

更令人期待的是，GPT-4o mini 的API 现已支持文本（且大幅改善了非英文的效率）和视觉，未来还将支持文本、图像、视频和音频输入和输出。在多模态推理方面，GPT-4o mini 在评估 MMMU 中也表现出色，得分率为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。

Andrej Karpathy 随即在推特兴奋表达， “我敢打赌，我们将看到思考能力得非常好、非常可靠的模型，它们的体积非常非常小…… LLMs 模型尺寸的竞争将进一步加剧”

Open AI 在GPT-4o mini的发布博文中认真写下这样的愿景时，我想他们大概率将实至名归：

“在我们的设想中，未来模型将无缝集成到每个应用程序和每个网站中。人工智能的未来正变得更加易用、可靠，并嵌入到我们的日常数字体验中，我们很高兴能继续引领这一潮流。”

📝 注释

[1] Open AI 这一年 m.okjike.com

[3] Open AI 的官方标准评测 openai.com

[2] Artificial Analysis 对GPT-4o mini 的性价比测评 x.com
47 315
池建强
3天前
前半年，我看到的有趣的 AI 产品

前天晚上，团队和 AI 产品经理黄钊做了一次直播，聊了聊近半年的 AI 产品趋势。今天这篇文章是我对直播内容的总结，其中部分观点来源于黄钊。希望对你有启发。

1、这半年脉冲式的小爆款 AI 产品，时不时出现。之所以叫脉冲式，还是因为它们来得快，去得也快。比如去年的妙鸭相机、哄哄模拟器，今年的粘土特效、音乐生成、已故亲人的照片合影等，都是火一阵，然后被人淡忘。它们不持久原因主要还是需求点本身低频或非刚需，噱头价值衰减。

2、包括写周报之类的场景，慢慢也没人提了。AI 发展的这一年，我们见了很多噱头式的功能，但稍微拉长点时间维度看，噱头几乎没有意义。如克⾥斯坦森所说，“⽤户并⾮是在购买产品，⽽是将产品带⼊⽣活，以完成某个任务。”仅仅只是出于好奇体验某个产品，和有具体的任务可以使用产品，两者哪个有持续性，不言而喻。

3、AI 搜索类的产品，前半年也有小小的破圈。比如国内的秘塔搜索，MacTalk 推荐过几次，确实很好用。它极大程度提高了搜索的效率。但目前看，这个赛道还是比较小，一方面，它和智能助手的功能有重合。另外一方面，互联网搜索、手机上的触屏交互，已经能解决 80% 的头部高频需求场景了.....

4、所以，AI 搜索很可能只是一个过渡态的产品，包括秘塔搜索，也还在不断进化之中。最近它上线了学术搜索的功能，我估计能圈一波小众、对专业知识有要求的用户，但想扩散到更广泛的人群，挺有挑战。颠覆搜索的，大概率不是另一个搜索（Perplexity 的前景，我还没看懂）。

5、很多人不理解AI虚拟陪伴聊天应用的价值，虽然最近Character.ai最近被爆资金链断裂，但我仍然不怀疑这类产品的价值。很简单，00 后、10 后用户在精神方面的需求，和 70、80、90 这几代人完全不同。

6、跨语言，可能是大模型最Native、现阶段最容易被感知和落地、但又最容易被忽视的能力。比如纳瓦尔的 Airchat，有一个能力是模仿用户的音色，自动完成语音翻译。还有一款 ToB 的产品，它可以帮助出海公司快速将当地法律法规情况翻译、整理成母语。Spotify也推出AI语音翻译功能，“让你喜欢的博主用你的母语为你播报”。

7、a16z 今年把语音 AI 作为一个独立投资主题。最近，AI 语言学习产品 Speak 完成了2000万美元B-3 轮融资，估值已经达到 5 亿美元。这个产品也是跨语言，只是人家场景进一步具体化了。Speak官方博客中透露：韩国有将近 6% 的人在使用 Speak 学习英语。

8、语音/音频确实是一个值得重点关注的方向，我的感觉是随着 AI 技术的成熟，它可能会迎来大爆发。比如最近我体验的产品 PocketPod，它可以根据用户的兴趣，定制生成播客。还有 Hume AI，今年也拿了好几轮融资，它可以根据人们的声音解释情绪。

9、从生产和消费信息的角度看，说话比打字快，读比听快。AI 完全可以帮我们完成语音和文字之间的转换。今天，墨问便签发布了 AI 语音笔记，你可以试试。之前很多人说自己不会写，但能说，那你现在可以说了，AI 帮你转换为可读的文字。

10、AI Agent 虽然很火，但到目前为止，仍然没有特别好、真正跨过那条“金线”的 Agent 产品。因为目前还缺很多很多东西，表层看，缺少推理能力、记忆、使用工具等能力。深层看，还缺少机器和机器（Agent 之间）通信和交互的底层架构和机制（这块，可以看看 Exa AI，一个针对 AI Agent 构建的搜索引擎）。

11、阿里最新推出了Mobile-Agent-V2，这是一个具有视觉感知功能的自主多模态移动设备代理。简单来说，它能理解指令，然后自己识别手机屏幕内各种元素和按钮，执行操作。比如，让它打开小红书搜索某个关键词，AI 能找到小红书，再找到搜索入口，进行搜索。LLM + RPA，是短期落地 Agent 的最佳姿势。

12、盘盘单词（小程序）这款产品是百度网盘团队出品的，让人眼前一亮。它能够从百度网盘里检索图片，然后在图片上打单词标签，帮用户学习。比如一张草原上的照片，它会标注出来草原、天空、马、云朵的英文单词是什么。

13、目前我用到的 AI 产品，更多还是集中在生产力工具层面。我们可以看到，过去一年中，剪辑工具、图片工具、内容生成工具，它们集成 AI 时，也会比较自然。这周，我看到剪映还推出了一个 AI 能力：智能剪口播，它可以直接提升剪辑视频的效率。

14、美图这家公司的产品你可以看看，它们这两年探索了很多 AI 应用。前两天我看了一篇采访，美图 CEO 提到两个观点：1）总结所有失败的产品，共性第一个是赛道没选对，第二是如果赛道选对了，在赛道里面的需求点以及切入点有没有选对。2）你要服务的用户，需要非常清晰，这样你才能精准地触达，针对性地建立心智。与其大而全，不如选择比较清晰的用户，然后逐步建立心智。
52 635
哥飞
2天前
我也转投 Claude 的付费会员了，在写代码这个需求上，目前的确 Claude 更好用。
61 2313
Lucas小杨
3天前
昨晚11点多给自己的网站接上了Stripe的订阅，不到1小时就出了第一单，心里非常开心，从此有稳定的MRR收入，不再是一次性买卖了

结果刚刚四点多又醒了，失眠睡不着，惦记着有没有新来多几笔的订单

记得前段时间自己定了个计划，最近一个多月（到8月结束前）不要想赚钱的事情，而是先把基础打扎实（学好需求挖掘、SEO推广、Coding等等）

每做一件事情前，先想想未来三个月以后，它能否还能对我产生价值，而不要去关注短期这每天几十美元的波动

计划是定下来了，但执行起来还是很困难，心里还是会忍不住地去想今天的收入是多少，订单少了一两单是为啥

看来很多道理嘴上说着都很简单，但还是只有真的下场做事了，才知道是那么地不容易，而心态和能力也只有在这一点一滴的实践中才能慢慢磨练出来
69 438
臀总
2天前
之前买电影票，习惯淘宝和闲鱼挑几个电影票账号去比价，当时我就在想，这种发个座位截图，客服给你报价的活儿，应该很容易ai替代吧，直接就是个最基础的视觉识别而已，上ai应该能把人效和报价速度双双提升。还和一个搞ai的朋友提过这个小生意，但是这似乎涉及到灰产，且没有电影院线的低价票资源估计也不好碰，还不确定是不是合法。

今天我又去淘宝一个卖家那里上传座位截图询价，对方秒回价，并且生成了一键支付的链接，这个肯定是上了工具了，而且效率提升效果非常明显，客户体验极好，不用等人工延迟报价，也不用拍下来再去改价什么的。个人或者小团队ai创业，这种细分需求的确很容易立刻获得正反馈，且一旦做起来，收益其实并不低。
36 127
zhijie
10天前
听说大家都在搞什么入口？那咱也做一个玩玩。

一个小小的Chrome浏览器插件 New Portal，会根据你输入的问题，自动判断你当前需要使用Google还是ChatGPT。

在我日常的使用中，两者都是缺一不可的，当问题通用或实时的时候，我会去用Google，而当问题比较具体和个性化的时候，我会去用ChatGPT。

那么为什么不把它们统一放在一个输入框上呢？每次在浏览器新建一个标签页，就能填入任何问题，接着让New Portal把你传送到目的地。

🔗www.newportal.pro
欢迎从这进去后下载插件体验。
00:40
43 1815
BigYe程普
13天前
信息差——独立开发者出海周刊第10期：gapis.money

工具推荐：

- SeekAll：一款多窗口搜索引擎聚合插件，集成了多种搜索引擎和AI助手，能够在一次搜索中展示来自多个网站的搜索结果 seekall.ai

- ChatHub：一款浏览器扩展程序，允许用户同时使用10+种聊天机器人 app.chathub.gg

- AI 老照片视频生成器：只需上传一张老照片并输入一段英文 prompt，就可以利用 AI 将老照片制作成动态视频。 laozhaopianai.com

- Glitch GIF Generator：帮助用户为图片添加故障特效，并生成带有这些特效的 GIF 动画。 glitchgenerator.com

更多推荐请查看周刊原文：gapis.money
15 25
AI产品黄叔
08:38
百度还是有好AI产品经理呀！

总结：

1. 这是一款百度网盘基于自己资源优势开发的AI Native应用；

2. 没有AI的多模态能力，就没有这种产品的可能性：识图+英语句子生成+英语原声朗读+AI智能学习。

3.自己的照片叠加国人热门英语学习，熟悉+刚需场景，非常巧妙！跨界融合！

4. 采用增值付费策略，叠加轻量化微信小程序，嵌入微信生态，但可惜的是似乎没有看到拉新策略的融合。

5. 很有创新思考，很能基于自身优势/用户需求找到融合点，这款产品的PM我很有兴趣认识交流一下！高赞！

我是AI产品黄叔，产品咨询顾问欢迎私聊
14 127
rosicky311_明浩
3天前
卡兹克的公众号推送已经只有各家ai厂商的公关稿了……
43 3015