即刻App年轻人的同好社区
下载
App内打开
Diiiii
249关注3k被关注11夸夸
置顶
Diiiii
5月前
2024 年的第一天,决定做一些新的尝试,开始一个新的付费分享社群项目,目的是建立一种“受托责任”,为自己构建“良性的压力”。如 Light 在《笔记的方法》里所说 :“如果一个人花了大力气去写文章却没多少人阅读,那么他自然很难坚持下去。而付费专栏就不一样了,因为收了读者的费用,哪怕没有几个人订阅,也会产生一种持续履约的义务 - 这是一种良性的压力,让他有持续不断的动力去更新小报童里的内容。”

分享群的名字叫做 “Seeking Wisdom”,取自《探寻智慧:从达尔文到芒格》这本书的书名,希望将探索智慧作为终身学习的目标,不断提高输入、输出质量,收集优质反馈,和群友们一起将自己打造成越来越优质的 Learning Machines,为人类文明的熵减做出自己微薄的贡献。

.
# 适合什么样的用户

1. 具有强烈的好奇心,是重度的信息控,非常注重每天摄入信息的质量。

2. 追求信息的“半衰期”而不是“新鲜度”,相比于新闻,更关注信息是否可以长期保值。换句话说,是信息的“价值投资者”而不是“投机者”。

3. 关注科技,尤其是人工智能,并且具备一定的基础认知素养。

4. 终身学习实践者,希望能够找到同路人,共同进步。

5. 对于我以往分享内容的质量较为认可。

.
# 提供的服务

1. 每日“旧文”。太多人喜欢追“新”,但褪去时效性的外衣之后,这些被咀嚼过一次的内容的下场,往往是尘封在“已读”或“收藏夹”里,再也无人问津。想一想,你收藏过多少内容?收藏后,其中又有多少被重新读过?这个时代,我们往往习惯于把信息当做知识,把收藏当做学习,把阅读当做思考,把储存当做掌握。我们像只边掰棒子边扔掉的狗熊,亦或是执着于收藏坚果的花栗鼠,把自己的内存和硬盘塞得满满当当,却依旧觉得饥渴难耐。

不如试着换个口味,试试那些保质期较长、营养更加丰富的食物?每个工作日,我会挑选一篇“老内容”来进行“温故知新”,这个内容可能是几个月前的,也可能是几年前的,但一定是我认为已经经受了时间考验的、“没有过时”的内容,同时附加我推荐的理由(文字)。它可能是文章(中文 / 英文)、视频、播客、读书笔记、课程等不同的模态,主要内容可能偏科技、人工智能、投资、终身学习、思维模型等等。

2. 每月思维模型分享。如何把“知识”串联起来,放在一个框架下面?如何建构大脑中一个个的思维模型 App,以便在思考时更多调用自己的“系统 2” 而不是“系统 1”?每个月,我会分享 1 个对自己来说非常实用的思维模型,例如芒格先生尤其推崇的心理学领域的“误判心理学模型”、投资领域的“跨越鸿沟模型”、健康领域的“长寿抗衰模型”等等,以视频+PPT 的方式来进行讲解,内容是自己根据个人研究、读书及实践经验所整理得来。自从芒格提出了“思维模型”这个概念以来,相关的文章很多,但一直没有人系统整理过靠谱的思维模型。我希望通过 10 年的时间,慢慢积累 100 个左右的真正有价值的思维模型。

3. 日常碎片信息分享。我会从自己阅读的数十个中英文信源中,不定期分享一些个人认为优质的碎片信息,比如文章、短视频、图片等,有用的或是有趣的,平均下来每天不超过 3 条,但不保证更新频率。

4. 允许就特定话题做适当深度展开,但谢绝灌水及聊天。

.
# 服务的局限

1. 专业领域局限。由于个人所从事的行业是科技投资,因此分享的内容中有相当一部分会是和科技(尤其是人工智能)、一二级市场投资、宏观经济等相关的,会有一定的专业门槛。虽然个人的兴趣爱好相对广泛,会尽量拓展自己分享的领域宽度,但重点难免还是偏向科技投资方向。不喜勿进。

2. 语言局限。分享的内容中,可能会有 20%左右是英文的。我会尽量找有中文翻译或字幕的内容,但不作任何保证。不喜勿进。

3. 个人能力局限。和各位一样,我只是一个还在终身学习路上的同路人,水平有限。期待着能够和大家一起共同进步。

.
# 如何加入

加入方法是扫二维码加好友,之后会有付费及试用期说明。如果是朋友推荐,请注明推荐人名字。

感恩遇见,希望有缘可以共同进步。
43
Diiiii
1天前
这期 Latent Space 还挺有趣的,访谈对象是 Jesse Silver,他们的产品专门服务 OnlyFans 这类成人平台上的色情创作者,算是一个小 SaaS 工具(注意并不是类似 c.ai 星野 这种捏崽游戏,而是辅助个人创作者的数字分身)。虽然由于政治正确等原因,这类产品被讨论得很少,但它们其实是 LLM 的最佳落地场景之一,是大模型时代的隐形冠军。一些 key takeaways:

用户需求:

- C端: “80%的客户群体是男性。第一,他们感到孤独,他们只是在寻找人来交谈;第二,他们为了更方便地寻找内容(这类粉丝完全接受与AI交谈,他们主要是为了方便);第三个也是最有成效的是,他们试图玩权力或幻想游戏(they're trying to play power games or fantasies that have a stake)。”这是一种具有目标、胜利条件的游戏式体验,很多时候是一次性的新鲜体验,月流失率约为 50%至 80%,回头客大约只有 10%。因此,产品的目标不是增加对话轮次,而是帮助大 V 销售内容产品,monetize the conversation。

- B端:OnlyFans 上的创作者,主要需求是增加收入,维护品牌。大约 80%的收入来自粉丝聊天。每分钟都有很多粉丝上线,可能会有 50 个并发的会话,平均会话时间在七八分钟左右,但对延时的要求很高,必须在 2 分钟内做出回应。创作者与粉丝聊天,试图向他们销售视频,与他们建立关系。这非常耗时。他们也可以运营一个离岸外包团队,但很困难,需要雇佣很多人,且离岸外包常见的国家互联网速度很慢。或者他们可以与代理机构合作,但溢价很高。

一些产品上的 know how:

- 从“榜一大哥”入手。“当我们接到新的创作者客户时,我们给自己定下的标准是,要能够无缝地与花了 2 万美元的粉丝进行对话。你需要能够了解这些大粉丝的偏好,他们是谁,他们买了什么。然后你还需要能够进行类似的对话,以符合他们可能习惯的方式。”

- 如何模仿创作者,如何把握好语气? “我们合作的第一个月收入超过 15 万美元的创作者,产品上线后,在两天内没有产生任何收入。出了什么问题?这个账号之前是由一个海外聊天团队运营的,我们试图弄清楚他们做了什么,为什么他们成功了。我们发现,他们的做法是威胁粉丝,威胁离开,骚扰粉丝。粉丝们都不高兴,都在抱怨。原来这位创作者是一个众所周知的不可接近的天后类型,而我们的产品却对粉丝很友好:“哦,我很高兴认识你。你叫什么名字?”等等。这就打破了创作者不可接近的品牌形象。于是我们意识到,我们需要能够根据创作者的品牌和粉丝期望的互动类型,为粉丝提供一致的体验。我们不希望违背这种期望…但对于御姐女主角类型,你需要能够证明自己并征服粉丝并赢得他们的好感,粉丝会想要证明自己并不断失败,而对于邻家女孩类型,你需要展示自己,并且找到他们喜欢的东西,建立亲密关系。

- 如何通过标准化的流程来“玩弄”和“挑逗”用户预期,让用户首先建立安全感,之后建立相互的信任关系。I guess I'd like to inject the overall fan experience just to provide sort of a structure of it is that if you imagine sort of online girlfriend experience or girl next door, if you reach out to this creator and say, I'm horny and she just goes, great, here's a picture of me. I'm ready to play with you. That's not that interesting to a fan. What is interesting is if you say the same thing and she says, I don't even know who you are. Tell me about yourself. And they get to talking and the fan is talking about their interests and their projects. And she's like, oh, that's so cool. Your project is so interesting. You're so smart. And then the fan feels safe and gets to express themselves and they express their desires and what they want. And then at some point they're like, wow, you're really attractive. And the creator just goes from there. And so there's this structure of an escalation of explicitness. There's the relationship building phase. The play that you do has to not make the customer win the first time or even the second time. There has to be more that the customer is wanting in each successive interaction.

- 如何处理“记忆”问题?这块是团队的核心策略,没有讲太多,只是提到很多时候并不是记得越清楚越好。

- 反馈迭代。创作者非常关心产品,因为这个产品在一对一的互动中复制了他们的个人品牌。他们对提供反馈并不害羞。我们喜欢反馈。因此,我们非常习惯在个人资料上发布后收到“这错了,那错了。你怎么这样对待这个人?你说的这个词是错的。这是一个奇怪的回应,等等。”然后我们能够从中学习并建立相应的流程。

- 评估与考核。最核心的指标是用户付费率,过程中会持续用 LLM 对用户的情绪进行监控,正常粉丝生气的比例为 30%,但如果突然上升到 70%,就会进行干预,等等。有专门的运营团队。

- 安全很重要。尤其针对这类产品,尺度的判断是关键。团队在工作流里使用了大量的推理模块河 RLHF,还有红队测试。

- 如何处理隐私、“我们不能只是凭空臆想回答这些问题。尤其是我们不能凭空臆想你住在哪里,比如我住在 5553 号大街。粉丝对于接收与他们期望接收的略有不同的东西很敏感。”

- 工具栈:最早用的是低代码工具,之后转向DSPy,利用其实时优化的能力和更优雅的工作流程,同时支持更方便地微调模型。

商业模式:“我们已经与超过 150 位创作者合,每天与大约 5 万粉丝交流,对应的粉丝规模超过 200 万。我们合作的创作者通常在月收入的范围从 2万 15万 不等(这是在我们与他们一起合作推出产品之后),合作使他们的收入增加 2 5 倍。我们只会拿他们销售额的 20%,而且我们不会从他们之前订阅或销售中获得的收入中抽取任何费用,我们只会直接拿我们合作销售额的那部分。

我们正在与一位创作者合作,每天我们为她从 100 个粉丝那里赚取 3000 5000 美元,而80%的人会流失。所以粉丝大都是新人。但这也是为什么这个商业模式在 OpenAI 上跑不通,因为获客成本远远高于 30 美元。”

GTM:“我们开发了一个原型,并参加了 AVN,这是最大的粉丝大会之一,然后向主流色情行业的人们推销。我们获得了大约 5 万美元的总交易额和一些合作伙伴。”

Emulating Humans with NSFW Chatbots - with Jesse Silver

09
Diiiii
7天前
猜猜 GPT5 和美联储降息哪个先来(《兼论Sam Altman和鲍威尔的预期管理》)
30
Diiiii
7天前
agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的 (multi) agent workflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的 input output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。

终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层 workflow,损失的信息就多了一次。面对简单问题时, (multi) agent workflow 或许是可行的,但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地 L4 跑通,但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。

因此,现有的 (multi) agent workflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把 workflow 拆出来。

Agent 的概念依旧重要,但应该回归它更加 native 的定义,即每一个 Agent 应该是独立的智能体,拥有自己的 memory, planning, tool use 等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车,而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。
2958
Diiiii
7天前
OpenAI 很鸡贼,提前一天开发布会,让 Google I/O 的气势弱了很多。再加上 Ilya 的官宣离职又分走了不少流量。果然今早一早起来,媒体的报道和用户的关注相比昨天要少得多。

但实际上,个人觉得 Google I/O 还是有不少看点。最大的感觉是:Google 在AI 发展的进度上真正追平了 OpenAI。无论是音视频实时助手,还是视频生成,基本上都能够和 OpenAI 同步发布,效果类似(当然 Veo 比Sora晚了三个月,效果看起来还是要稍逊)。甚至 Gemini 1.5 Pro 2 million 窗口,LLM Google 原生搜索的结合,以及与智能眼镜等硬件的集成,相比 OpenAI 来说还要更领先一些。整体上,感觉 Google 这头巨兽算是彻底醒过来了,开始处于某种进攻的态势。(当然,实际全面发布时间是个问题。The Information Google 现在在 AI 上的风格是先立牌坊,然后慢慢挤牙膏兑现。)

Google 的这个多模态助手 Astra,尽管在语音的表现力上不如昨天的 ChatGPT,情绪没有那么丰满和 dramatic,但是在延迟响应、实时语义理解上是不输的,尤其是还结合了记忆,感觉上甚至更加实用。

相比之下,OpenAI 昨天的发布会,以及最近的一系列动作,比如传说中和苹果合作,似乎都有“提升用户体验,进而拼命扩大用户量”的感觉,不知道是不是切身感受到了 Google 的威胁,在战略上做出的选择。或许 OpenAI 已经意识到了,单单靠自己很难跨越鸿沟,GPTs 的失败就是例子。

当然,Google 也有自己的问题,当下最大的风险就是如何应对 LLM 在搜索结果中带来的商业化挑战。发布会上,搜索的第一条结果换成了 LLM 的结果,体验上看似变好了,但对商业化的影响是巨大的。这种左右互搏,处理不好就会是自掘坟墓,处理好了就会迎来第二曲线。至少从股价来看,感觉华尔街对于这次 I/O 的故事并不是非常 buy in,还在继续观察。
04
Diiiii
8天前
一句话点评GPT4o:更灵敏、更有人情味的眼睛、耳朵和嘴,但脑子没有更聪明。OpenAI 官网上的GPT-4o 的十几个各种用例值得看一遍,印象比较深刻的:

- 最有趣的还是多个 GPT-4o之间的 interaction,比如两个 GPT-4o 互相配合去创作一首歌曲并完成和声,比如一个带摄像头的 GPT-4o 给另一个不带摄像头的 GPT-4o 来描述环境。

- 最有启发的场景是客服场景,一个 GPT-4o 扮演主人的助理,帮主人去退货,另一个 GPT-4o 扮演客服。主人只需要吩咐一下助理,把需求交待清楚,把所有的决策做完,之后冗长繁琐的沟通,完全交由两个 GPT-4o 自己去解决。这种 bot 主导的场景可能是未来生活的主流。当时,视频里的 GPT4o 之间也在用语音交流,实际上完全没必要,直接用 script 交流就可以了。未来人人交互、人-模型交互、模型-模型交互应该是三种不同的方式

- GPT-4o 的声音确实比较有表现力,好几个视频都是为了展示声音在语音语调、节奏、音量、情绪、延迟方面的变化。翻译、会议场景、语言培训方面的用途会比较大。(Duolingo的股价跌了一把)

- GPT-4o 的视觉能力比较适合和眼镜搭配,理解环境。穿搭助理、实时导航、导游、儿童教育、做菜、面试辅助、宠物训练这些都是看得见的场景。在发布会上演示了程序员的实时代码辅助场景,不确定逻辑方面能否跟得上,但做个程序员鼓励师应该是没啥问题的

- 利好各种智能硬件。利好苹果。

整体上,本次进化更多发生在感知和交互层面,让模型拥有了更加灵敏的眼睛、耳朵和嘴。效果看起来很 fancy,但本质上“脑子”并没有太大变化,模型天花板并没有变高,所展示的 case 都还是简单推理下的问题,比如解小学数学题、处理简单客服退换货需求、讲睡前故事等等。更复杂的问题估计还是搞不定。

个人理解,这次还是把人-模型界面的接口体验做了很大优化,对人更友好了,加上成本大幅降低,可以让更多的用户用起来,渗透率能够狠狠拉一把。另外就是硬件层面上,对耳机、眼镜这些设备开启了新的机会窗口。

https://openai.com/index/hello-gpt-4o/

42
Diiiii
13天前
AlphaFold3出来了,一堆公众号又开始狂欢。新闻看似很震撼,但实际上能够起到的价值非常有限,真正需要的结构还是预测不对。附图是颜宁老师的评论。

AI Drug Design 这么多年,实际上进步非常慢,究其原因,还是问题本身过于复杂,计算空间过大,且数据量过少。另外,制药的大钱是花在临床后的环节,真正花在 R&D上的预算也没有那么大。

前两天和人还聊起这个话题。从一个很虚的角度来说,LLM 解锁的是人类的语言和智慧,但蛋白质是上帝的语言,短期内很难算得过来。我个人也同意。在生物医疗领域,目前 AI 的价值更多是边际性的而不是颠覆性的。

如颜宁老师所说,“还是那句话,AI一定会越来越强大,如何拥抱新技术、问出更有意思的问题,才是相关科研工作者现在更关注的。”
13
Diiiii
15天前
Naval做的Airchat,算是ClubHouse 借尸还魂的 Twitter 版,个人不是很看好,几个原因:

1. 技术上N年前就可以做了(STT的识别率足够高),但一直没有人做起来。很难相信还有这种互联网时代的遗珠在尘封多年后才被人发掘出来。从概率上来看,成功率很低。

2. Twitter 是一对多的产品,从优先级的角度来看,内容接收方的体验要高于内容发送方。发语音这个事情,对于内容发送方来说提高了便利性,但对于内容接收方来说简直就是灾难(想想微信里听语音消息的体验就知道了)。相比文字,语音信息的传递带宽窄、效率低,绝不是沟通的最佳媒介。

3. 即便是从内容发送方的角度来看,发语音确实很方便,但代价是相对书面语来说,内容质量和信息密度降低了,换句话说,相比文字信息,发语音时的内容会更“水”一些。另外,语音是一次性的,缺乏编辑和修改的空间,会进一步降低内容质量。

4. 当然,语音也不是全无是处,比如Naval 提到的,“相比文字,语音可以传递情绪、语调等更多细微的差别”,以及在某些视觉受限的场景下(比如开车、健身等),语音有一定的价值(这也是播客为什么能活得不错),但这些也同样需要语音中的信息密度足够高。你能想象在开车或健身的时候,把某个微信群的聊天记录用语音的方式一条一条播放出来吗?

总之是不看好了。当然都是纸上谈兵,自己也没用过,期待被打脸。

让 Altman 也玩上瘾的「语音 Twitter」,在硅谷彻底火了

25
Diiiii
21天前
PS. “三年以内,所有带显示的AI设备都是要扑街的”这句话是李楠的原话,我理解他的逻辑是光学显示技术在三年内不会有革命性的进步,因此要想做到有足够分辨率的显示效果,就需要增加设备的体积,而这势必会影响便携性。在他看来,便携性是最重要的,绝对不能被牺牲。

李楠的原话是,“定义硬件产品,首先要定义的是产品的尺度。我们有一个基本的方向性的判断,这个方向性的判断是以手机为根据的,它会比手机更大更重吗?或者它会比手机更小更随身呢?我们可以想象一下,三年之后, 是不是一个有钱人的兜里都会揣着一折叠屏?如果屏幕就在我兜里,还是那么大的一个触控屏的话,你用什么显示能打败它?因此,(下一代设备必须是)冲着比手机更小更轻更随身更便宜的方向去的。”

关于这一点,我个人也有不同的看法。显示的价值在于增加沟通的带宽。如果没有任何显示,那么设备和用户的沟通仅限于音频 speaker,而音频 speaker 是时间顺序的媒介,沟通带宽很低。“今天天气晴,气温 25 度”这种信息念出来需要好几秒,但如果有显示,哪怕只是单色的字符显示,但瞟一眼就可以看到,沟通带宽会高很多,私密性方面也会有提升。

换句话说,增加显示未必意味着牺牲便携性。据说 Meta Rayben 下一代设备就会增加类似的低分辨率显示。

顺带一提,李楠在访谈时有很多类似的“断言”和“暴论”,比如“五年之后程序员会消失”,比如“比程序员先死的是产品经理”(他对产品经理的理解似乎只是做 GUI 设计的),等等。这些随便听听就算了。不过我认为他对硬件的理解还是很深刻的,总的来说还是值得一听。

某种意义上,我感觉这些“断言”和“暴论”也是硬件产品经理长期训练的结果。做硬件产品要做大量的取舍和决策,并且要十分坚决。毕竟硬件产品开发周期长,灵活性低,这需要团队从第一性上做很多思考,并且敢于建立非共识。如李楠在最后所说:

“我们做了多年消费硬件,发现一个很有意思的事情,就是我们用语言描述一个产品,到最终(把产品)生产出来,你弄一百个团队同时干同样的产品描述,他们最终拿出来的东西会完全不一样。过程中涉及到大量很细的产品决策,包括使用什么样的材料, 怎样影响重量, 用什么样的表面处理, 等等,这里面你可能需要做一千个决策, 其中至关重要的影响生死的决策, 可能有五到十个。我觉得一百个团队全部做同样决策的概率也不高。”

Diiiii: 魅族的李楠过来做嘉宾,谈了不少他对 AI 硬件的理解,尤其是他对“下一代可穿戴的 AI 设备”的想像,以及背后的逻辑,值得一听。尝试梳理: 整个3C科技行业有一个关于个人计算设备的预言,这个预言到今天为止一直是有效的。这是当年施乐的一个叫马克·维瑟的工程师提出来的。1991 年,39 岁的马克·维瑟在《科学美国人》发表了一篇文章,叫做《21 世纪的计算机》,提出了普适计算 / 隐形计算(Ubiquitous computing)的概念,并且定义了三种形式的个人计算设备:Boards(尺寸以米计算的大型设备,电视/电脑)、Pads(尺寸以分米计算,手持 Pad)、Tabs(尺寸以厘米计算,可放在兜里,手机)。他还预言了wearable device的崛起以及传感器的无处不在。预言的最终形态是人们只要带着一张脸,就可以随时调用数据和算力。 施乐的这个预言的计算设备的发展路径已经被过去几十年证明了,也是李楠的基本论据。在这个预言里,在 Tabs(手机)和最终形态(人脸)之间,会出现一个过渡的状态,一个比手机更轻、更小、更便宜、更随身的设备。它成为计算中心的理由不是因为算力更高(手机也不是因为算力才成为中心),而是因为它比手机更容易访问。如果存在这样一个设备,它应该是越靠近脸部越好,因为这样会离人类的传感器更近。人类也有天生的传感器,我们的 camera,我们的 microphone,我们的 speaker,都在脸上,所以它应该是一个接近脸的设备。设备上应该装一堆传感器,什么红外可见光+激光+阵列麦,看得比人还清楚,听得比人还清楚,然后喂给大模型获得答案。此时,“作为一个人,我变成了一个低级物种。” 这样看来,这个划时代的下一代颠覆性设备应该满足这样的描述:wearable,离脸近,更轻,更多传感器(always and instantly ready的传感器,重要性被严重低估了),更好的网络连接(以便和AI大模型绑定)。可能的候选形态包括眼镜、耳机、项链、帽子等等。Meta Ray-ban智能眼镜本质上就是一个可拍照的音频眼镜,第一代被用户骂惨了,第二代做了改良,加了阵列麦克风和摄像头,但没做显示,所以能维持重量和一个相对过得去的续航,然后支持一定的AI多模态功能,还支持离线。Meta 还正确地控制了用户的预期,因为它上一代产品的表现很一般,所以其实大家的期待并不高。 如果这样一个 wearable device 被搞出来,很可能三年之内就会取代手机,在大众中的渗透率超过 50%。这里的逻辑是每一代计算设备的渗透速度都在加快,互联网用了几十年,智能手机 6 年(iPhone 渗透率超过50%用了 6 年),所以下一代设备的渗透速度一定更快。至于商业模式,目前还不清楚,但只要对用户有价值,一定可以找到靠谱的变现模式。 李楠认为,当前所谓 “AI 硬件” 涉及到两个矛盾的概念,第一个概念是“+AI”,用老东西加上 AI,比如所谓的录音机加AI,它的短期成功概率更高,更确定,类似种地。第二个概念则是颠覆性的“AI Native”,当软件产生决定性变化的时候,硬件应该从零开始为软件的能力重新设计。这种方法的结果不可预测,像是放羊(当然在人类历史上是反过来的,从游牧文明到农耕文明)。用图片处理来举例子,photoshop 就像是种地,是联合收割机,用的是对象、命令、多窗口等经典方法,而 midjourney 就像是放羊,用的是自然语言,是完全不一样的生产力。 最后,李楠对其他 AI 硬件的评价: - AI Pin:灾难性的产品,基础体验不好是其次,最重要的是产品定义错了,做了太多的加法。三年以内,所有带显示的AI设备都是要扑街的。 - Rabbit R1:大概率会扑街,它的产品定义不清楚,不能用一句话清晰的说明白。另外,它的革命不彻底,还是基于 GUI 的假设来做交互,用虚拟机来模拟 GUI ,但 GUI 是给人看的,不是给 AI 看的。在 AI 时代需要更加颠覆性的底层解决方案,比如 Stanford 的 Octopus 团队,跳过 GUI 应用层直接写脚本,模型更小,执行效率更高,速度更快,功耗更低。 - Apple Vision Pro:傻逼产品, 太重了。 - Rewind Pendant:已经成功了。产品定义就是 AI+录音机,做 Memory 的记忆和增强, 非常清晰。

23
Diiiii
22天前
魅族的李楠过来做嘉宾,谈了不少他对 AI 硬件的理解,尤其是他对“下一代可穿戴的 AI 设备”的想像,以及背后的逻辑,值得一听。尝试梳理:

整个3C科技行业有一个关于个人计算设备的预言,这个预言到今天为止一直是有效的。这是当年施乐的一个叫马克·维瑟的工程师提出来的。1991 年,39 岁的马克·维瑟在《科学美国人》发表了一篇文章,叫做《21 世纪的计算机》,提出了普适计算 / 隐形计算(Ubiquitous computing)的概念,并且定义了三种形式的个人计算设备:Boards(尺寸以米计算的大型设备,电视/电脑)、Pads(尺寸以分米计算,手持 Pad)、Tabs(尺寸以厘米计算,可放在兜里,手机)。他还预言了wearable device的崛起以及传感器的无处不在。预言的最终形态是人们只要带着一张脸,就可以随时调用数据和算力。

施乐的这个预言的计算设备的发展路径已经被过去几十年证明了,也是李楠的基本论据。在这个预言里,在 Tabs(手机)和最终形态(人脸)之间,会出现一个过渡的状态,一个比手机更轻、更小、更便宜、更随身的设备。它成为计算中心的理由不是因为算力更高(手机也不是因为算力才成为中心),而是因为它比手机更容易访问。如果存在这样一个设备,它应该是越靠近脸部越好,因为这样会离人类的传感器更近。人类也有天生的传感器,我们的 camera,我们的 microphone,我们的 speaker,都在脸上,所以它应该是一个接近脸的设备。设备上应该装一堆传感器,什么红外可见光+激光+阵列麦,看得比人还清楚,听得比人还清楚,然后喂给大模型获得答案。此时,“作为一个人,我变成了一个低级物种。”

这样看来,这个划时代的下一代颠覆性设备应该满足这样的描述:wearable,离脸近,更轻,更多传感器(always and instantly ready的传感器,重要性被严重低估了),更好的网络连接(以便和AI大模型绑定)。可能的候选形态包括眼镜、耳机、项链、帽子等等。Meta Ray-ban智能眼镜本质上就是一个可拍照的音频眼镜,第一代被用户骂惨了,第二代做了改良,加了阵列麦克风和摄像头,但没做显示,所以能维持重量和一个相对过得去的续航,然后支持一定的AI多模态功能,还支持离线。Meta 还正确地控制了用户的预期,因为它上一代产品的表现很一般,所以其实大家的期待并不高。

如果这样一个 wearable device 被搞出来,很可能三年之内就会取代手机,在大众中的渗透率超过 50%。这里的逻辑是每一代计算设备的渗透速度都在加快,互联网用了几十年,智能手机 6 年(iPhone 渗透率超过50%用了 6 年),所以下一代设备的渗透速度一定更快。至于商业模式,目前还不清楚,但只要对用户有价值,一定可以找到靠谱的变现模式。

李楠认为,当前所谓 “AI 硬件” 涉及到两个矛盾的概念,第一个概念是“+AI”,用老东西加上 AI,比如所谓的录音机加AI,它的短期成功概率更高,更确定,类似种地。第二个概念则是颠覆性的“AI Native”,当软件产生决定性变化的时候,硬件应该从零开始为软件的能力重新设计。这种方法的结果不可预测,像是放羊(当然在人类历史上是反过来的,从游牧文明到农耕文明)。用图片处理来举例子,photoshop 就像是种地,是联合收割机,用的是对象、命令、多窗口等经典方法,而 midjourney 就像是放羊,用的是自然语言,是完全不一样的生产力。

最后,李楠对其他 AI 硬件的评价:

- AI Pin:灾难性的产品,基础体验不好是其次,最重要的是产品定义错了,做了太多的加法。三年以内,所有带显示的AI设备都是要扑街的。

- Rabbit R1:大概率会扑街,它的产品定义不清楚,不能用一句话清晰的说明白。另外,它的革命不彻底,还是基于 GUI 的假设来做交互,用虚拟机来模拟 GUI ,但 GUI 是给人看的,不是给 AI 看的。在 AI 时代需要更加颠覆性的底层解决方案,比如 Stanford Octopus 团队,跳过 GUI 应用层直接写脚本,模型更小,执行效率更高,速度更快,功耗更低。

- Apple Vision Pro:傻逼产品, 太重了。

- Rewind Pendant:已经成功了。产品定义就是 AI+录音机,做 Memory 的记忆和增强, 非常清晰。

和怒喵李楠聊AI硬件:乔布斯预言的可穿戴未来与20个判断,AI手机不是正确答案-Vol47

脑放电波

2034
Diiiii
27天前
两张图说清当下 LLM 2C、2B 的真相
47