即刻App年轻人的同好社区
下载
App内打开
星期几-
20关注19被关注0夸夸
ai产品狗分享所见所思所想
星期几-
5月前
AI只有情感没有陪伴

这个结论应该是近2年做ai陪伴、角色扮演类产品的一个非共识。这里说的陪伴指的是超过3个月的长期陪伴,今年上半年较火的tolan,也在50天后出现了用户流失或使用频率下降

为什么AI情感陪伴没有“陪伴”,个人觉得,是因为当前ai获取人信息的模态还是比较单一,大部分只能通过用户输入的文字获得。因此相对用户的每日生活有一个全面的了解,依赖用户大量的文字输入,这对用户使用门槛太高。而像我们日常交往中的很多模态信息,如视觉、声音、味道等,ai无法获取,又或者无法理解。
虽然很多产品也有ai语音通话和视频通话,但都因成本作为付费功能,这进一步减少了人能像ai传输的信息密度,在我们日常生活中图像、语音、视频是沟通中必不可少的元素

除去“陪伴”,ai情感陪伴目前能提供的也就只有前面的“情感”了,这也是这2年大部分产品在做的。目前情感有三个方向,而由于陪伴感的缺失,这个方向都需要源源不断的内容扩充

情绪价值
1⃣本质是自定义角色扮演,这是ai聊天应用最广的方向之一,如c.ai、星野、猫箱等。后两者在角色风格基础上加入了一些的剧情,做成互动小说。但最核心的自定义,让用户可以根据自身需求、喜好,在需要的时候将ai调校成任何一个角色,用户自己生产内容。

2⃣内容消费
主流的内容方向是“心理疗愈”和“恋爱游戏”,如今年比较火的tolan和eve分别代表了两个方向的标杆产品。这个方向依赖产品团队对内容不断推陈出新,出新的剧情或小故事副本,依赖产品团队的策划运营能力。

3⃣ai分身
偶像、达人的ai分身一类产品,如抖音ai分身、x eva等。目前想让ai分身完全还原真人过于困难,且这里面有一个潜在身份冲突的问题,真人是作为粉丝的偶像身份,ai分身是作为粉丝的朋友/恋人身份还是继续作为偶像呢。目前看到的很多产品在身份这块的定位不明,导致只有偶像、达人前期ai人设的设计,后期的内容完全没有设计导致断档
10
星期几-
6月前
还记得去年“自然选择”爆火出圈的那则宣传片吗(p1),一个具有长期记忆和极高情商的AI女友,配合着3D高精人物建模,提供不亚于真人的陪伴感

Eve,本周一开启内测了,虽然我没有直接拿到内测资格(第一批都是iOS用户),但身边朋友拿到内测资格,也趁机体验了一番😆

1️⃣ AI x 恋爱游戏
由于汉堡本人今年也在做AI陪伴的业务,对于ai聊天+游戏剧情结合,并在亲密度提升或特定时候触发剧情的产品设计,和Eve有完全一致的方向判断

个人觉得,AI chat产品(猫箱、筑梦岛、星野等)和乙游最大的设计差别在于运营角度上。AI chat平铺大量、多样的角色agent,但用户对单个角色忠诚度较低,可以随时切换。正因为此,用户对单个AI产品本身的忠诚度也不高,在模型聊天体验大差不差时,会同时切换多款产品

而乙游注重主角的长期运营,不断推出新的故事线。即使要推出新角色,也会在已有主角故事线中提前铺垫,然后逐步独立出新角色自己剧情

用户对一个角色的情感,来源于长期、共同的经历,或是第一人或是第三人称,一切影视、小说、游戏皆如此。而乙游中用户对角色的高度忠诚,也让乙游和AI chat产品的营收差了几个量级

最近在采访乙游玩家的时间,不少恋与制作人的早期玩家玩家都反馈,虽然现在的剧情不再吸引他们,但是和男主几年的情感羁绊让她依旧会继续游玩

2️⃣ AI记忆
Eve作为陪伴产品中最出色的那个,从渲染片的爆火到创始人在小宇宙的分享,无不在强调一个点,就是“记忆”

而在体验过程中,Eve这一点确实做的很出色,我们视频互动中玩过的小测试,聊天过程说过的话,AI都记得,且在之后的聊天非常自然的提及这些记忆(p2~p3)。能完美做到这一点,至少已经符合一个“好朋友”的标准

但Eve是否是一个“好伴侣”,我觉得还有待观察。Eve里角色经常用的一个词是“下次”(p4-p5),过多的文字承诺都在对抗和用户的信任,破坏这段关系的真实感,这些文字承诺真的会通过动画剧情呈现给每个用户吗。又或是部分用户就是需要这样的虚假承诺?

在旧约圣经中,伴侣被描述为“平等的,亲密无间的,可信赖的伙伴”。Eve通过记住用户,做到了建立信任,但如何维持这段信任甚甚至更进一步,很期待Eve在未来给出的答案
00
星期几-
6月前
什么是一个大模型公司好领导

Andrej Karpathy上周在Y combinator的演讲,想必不少人已经看过了,没看过的在各平台也有很多博主有帖子总结帖。但演讲中有一个细节,让我印象十分深刻

在讲「vibe coding」的那一章中,他举了个亲身经历的例子。他去餐厅的吃饭时候,菜单上菜名又复杂又没图片,因此他想做一个小工具,给菜单拍一张照,大模型即可脑补生成菜品图片。他使用cursor大概vibe coding了几个小时,就完成了从功能到交互的产品核心部分。

但当他想把这个demo变成一个真正的产品时,花了一周的时间在用户认证、支付、域名、部署等开发运维的工作。这些工作不是难,而是繁琐,各种文档长篇大论,一会要点击这里,一会要跳转那里。就像一台计算机在告诉他要执行什么操作,而计算机自己却不做。在他看来,这个工作技术含量并不高,agent完全可以承担,只是目前人类的文档有很多大模型还没法阅读理解。

这个例子,一下就能解释,为什么Anthropic能提出MCP的概念并逐步成为主流。当领导自己对一个场景有很深的体验,对其中的痛点有很深的认知,就能提出正确的问题。而在正确的场景里找需求,在正确的方向上提出问题,远比解决问题更重要

国内不少企业,在大模型业务上都有拿着锤子找钉子的举动,领导拍脑袋想出来的需求,下面人一通忙活,发现从头到尾只有自嗨。在大模型时代,如果领导不躬身入局,不亲自上手用产品。在办公桌后听再多的分析汇报,也很难对大模型方向有清晰、远瞻的判断😂
00
星期几-
6月前
大模型真的能替代医生吗?

我的答案是,gpt o3水平的模型,真的已经达到了部分专业医师的水平

以下是汉堡本人最近的亲身经历

一个月前打羽毛球脚崴了,虽然肿的厉害,但因为以前踢球偶尔也会崴脚,所以并未在意。但是一个月过去了,依然感觉脚踝发不上力[叹气R]

遂去医院做了个核磁共振,挂了杨浦某三甲医院副主任号,医生看完片子当场给我判刑,“你这韧带断了,你要是还想恢复到以前的运动水平话,可以考虑下手术,手术费用是xxx,当然也没有劝你手术的意思,还是看你”[石化R]

结合前段时间一些小病大治的事件,我又挂了一院的副主任号,想交叉求证一下。结果医生看完表示,现阶段还看不出来韧带损伤程度,建议保守治疗等积液消了再复查

两位医生的结论大相径庭。。。突然好奇如果因为种种原因“人”做不到客观公正,那大模型可以吗?

于是我尝试把核磁共振完整dicom文件,以压缩包的形式扔给了几个推理模型进行诊断,结果如下:

0⃣️gpt o3:支持上传dicom文件和压缩包。自己写了个脚本解压并将dicom转成图片,依次读取其中的图像内容,再修改了几次脚本后成功完成。同时给出了他的分析和判断,从单点分析到结论,几乎和一院的医生面诊结论对齐(p1)

1⃣️doubao 1.6:不支持dicom或压缩包,仅支持10张图片上传。我手动转成图片后挑了医生比较关注的部位上传,模型返回的内容基本和我的影像无关,只是尽量往我的问题文字描述上靠(p2)

2⃣️qwen vl max:不支持dicom或压缩包,仅支持1张图片上传。放弃测试

3⃣️deepseek r1:不支持dicom或压缩包,虽支持50张图片上传,但只有ocr能力。众所周知ds并没有多模态模型,但是纯靠强大的逻辑推理能力,从片子里提取出来的文字,竟然也分析出了个一二(p3)

综上,模型医学诊断角度:
gpt o3>>ds r1>doubao 1.6>qwen vl max

gpt的诊断还是超出了我的预期,在没有任何利益驱使的前提下,大模型完全可以作为一个公正客观的私人医生助手。大模型看病,可能真的不远了
62
星期几-
6月前
RL在大模型中是如何发挥作用的
(节选自《商业访谈录》张祥雨那期)

1. 为什么RL在大模型中能work

以数学题为例,大模型在解题过程中有两个问题,一个问题是大模型可能会跳步;第二个问题是大模型在解题的关键步骤有可能会选错,从而导致一步错步步错。

这两个问题的原因都是在于预训练中数据量巨大,一方面人类做数学题就是存在解题过程跳步的情况;另一方面,数据中可能有两道很相似的题,在解题关键步骤分别一个要用a方法一个要用b方法,而用另一个方法会在另一道题上出错。但这并不代表大模型不能做对,只是准确率不高。

那强化学习是怎么提升大模型准确率的呢。首先,RL只根据rule base,不管模型做题过程中是跳步还是分步推倒,只要答案是对的就给奖励。其次,在分步解题的过程中,那些推倒的关键步骤,通过不断的奖励和惩罚,让模型知道分别怎么做才能让多道相似的题都做对。

之前非推理的大模型范式,是一种答案直出的模式。所以同一道题让模型roll 10次,可能它一会对一会错,这也是next token prediction本身的缺陷。而在推理模型cot的范式中,可以让模型roll无数次,错了即重头再来。再结合上面提到的RL,同时让准确率上了一个台阶。

2. RL怎么提升cot的泛化性

在24年中,阶跃星辰内部尝试给定模型思考方式让模型进行cot训练,比如在图片中数个数的时候,教模型数一个做一个标记。但他们发现,这种方法训练出的推理模型不具备O1那样的泛化性,模型只会数数,在别的逻辑推理上又不会思考了

那为什么O1在cot上能有这么好的泛化性呢,他们发现,是因为这些cot本身就存在于预训练的数据中。比如预训练数据中,包含大量不同领域思考的方式,但是这些数据很零散且数量较少。而在RL的rule base下,这些cot的思考方式不断加强,从而让模型知道在解决什么问题时应该怎么思考,宛若一个知识渊博的学者,而他的知识量海纳百川,包含互联网上所有知识体系。

因此,问题的本质就回到了数据上,首先需要有足够广度的数据,且这些人类数据不是仅有结论没有思考的低质量数据。只有在这个前提下,才有可能在后续的RL过程不断加强这些思考方式,并最终训练出可泛化的推理模型

3. COT在多模态的应用

上一篇中,提到我最近发现prompt在图片生成和视频生成中的重要性。这也应和了张祥雨团队的一个发现,即在生成模型中,增加语义理解阶段的cot范式。但在此基础上,还可以增加生成阶段的cot范式,比如“生成-比对-再生成-再比对”的过程。

当前的O3在图片理解上也正是这样做的,这个范式反过来用在生成上也并不难,甚至可能4o的生成模型中就包含初级的生成cot
10
星期几-
7月前
为什么我们用AI无法生成满意的图

结论:prompt写的不够好

最近测试发现,同样的生图模型,一句话输入效果欠佳,而将这句话扩完善后,生成的图片效果和稳定性都有一定的提升。图片示例为flux.1 kontext分别在短句和扩写后的长短下的表现效果

提升图像生成效果,除了底层模型本身的提升外,还有很多tricks,比如让模型把你的原始prompt进行扩写和完善,越多细节质量越高,rephrase至关重要。

或者让模型先生成几张,通过vlm模型选取符合的一张再作为参考继续生成,类似一个自我推理的过程,整个过程可以通过工程来实现。

4o效果如此之好,大概率也是在于有一个内置的prompt优化步骤,还是借助了大语言模型的能力
01
星期几-
7月前
今天参加绿洲资本线下闭门会,除了分享一些agent趋势的观点,最有意思的是解读人的注意力机制在AI时代的变化

大模型出来的这三年,世界变快了,大家的注意力也在失控。过去一封家书要1年才能送达,而现在1秒就有无数信息涌入,我们对时间的感知也在变快

“感知→处理→行动”

是人面对所有事物的本质,感知包含我们每天看到的、听到的、闻到的等等多模态信息。但是,人感知的信息>>大脑能处理的信息>>做出的行动。因为人的大脑每天能处理的信息有限,能做出的行动有限,所以进化出了注意力

而机器资源相对来说是无限的,只要有足够的资源,计算机每天可以处理数百万的数据,但是其中没有重点,直到那篇划时代论文的“Attention is all you need”,给计算机引入了注意力机制,再到现在的稀疏注意力和线性注意力

在大模型之前,人相比AI最重要的就是注意力系统。但在当今的信息流时代,无论是短视频横行还是AI日新月异的发展,都在逐步摧毁大家的注意力系统

注意力系统本质上是一个滤波器,关注的信息会进入到大脑,不关注的信息会被过滤掉。在这两年信息爆炸的时代,有些人根据喜好来过滤,世界变得越来越局限;有些人什么都关注,世界变得失焦。且由于

很多人并没有关注自己该关注的东西,而是关注社会关注的东西,放弃了“感知”,用“看别人的行动”来代替感知输入,再输出同样的行动。当输入和输出连在一起,就像麦克风对着音响形成啸叫,变成了噪音和焦虑

所以,在这个瞬息万变的时代,是重建自己的注意力机制,关注自己的需求,关注自己真正想要什么。注意力将是人是否被AI取代最大因素
07
星期几-
7月前
Deepseek R2x小道消息爆火推特

最近的一篇文章在X上爆火,称ds通过“递归认知格”来提升模型能力,且机制的性能优化可以使得自回归用于长文本推理。

递归认知格是指模型可以根据用户的问题来揣测问这个问题的原因,跟根据问这个问题的原因来思考如何给出更合适的回复,一层一层,深入思考。这可以使得模型向AGI迈向一大步。

结合大小马聊科技最新一期里聊到的一个暴论,可能在未来的某一天,不再需要那么多工作岗位,大部分人也不需要上班,只需要待在家里。AI完成大部分的生产劳动,并根据人的需要按需分配。

虽然不知道R2这篇文章的真实性有多少,但当一个技术奇点到来的时候,总是悄无声息的融入我们的生活,突然有一天发现时代变了
00
星期几-
9月前
从卡兹克的产品推荐看这两年AI发展
最近听完卡兹克在晚点的对谈,2小时播客也侧面展现了大模型这两年发展曲线。

卡兹克作为最熟悉海内外AI产品的KOL之一,在2023年3月和2025年2月分别做了两次AI产品推荐,一定程度上反应了AI产品在市场上用户的认可度。
从这两次的类型划分以及推荐产品的对比,再一次感受到AI发展变化之快,同时也有一些很有意思的点:

1. 技术迭代之快,不存在先发优势
2023年最早“all in AI”也是国内最先发步大模型的厂商,在2025年用户推荐中已不见踪影,全方面掉队。同时很多两年前的大模型产品现在也杳无音信,比如new bing、Jasper等。有很多先发产品,在基座模型升级后被覆盖,并没有形成壁垒,也没有所谓的建立数据飞轮。

2. 大模型应用从单点到多模态
2023年各产品形态较为孤岛,架构不统一、体验不打通。但在2025年,文章生成很难再作为独立的产品,数字人也作为AIGC的一个细分被视频生成产品蚕食。除了AI编程、AI 3D的垂直场景工具,视频、图片、音频等模态的生产力工具也多点开花。其他能力在应用层面趋近融合,被应用在AI对话、AI搜索等泛领域。

3. 厂商各异,群雄逐鹿
2023年的推荐产品主要以OpenAI能力为主以及一些套壳应用,但在2025年,互联网大厂的产品也逐渐成为用户主流,尤其是财大气粗的字节系产品。当前垂类应用做得好的也基本是后起之秀,2年前的初创公司被甩在历史的车轮之后。

2年过去,OpenAI依旧在引领这波AI革命,但再也没有人说中国大模型比美国落后2年,在视频生成领域甚至走在前沿。
大模型浪潮,机会很多,不用怕错过,Flow with it~
01
星期几-
9月前
最近密集跑了一些做下沉市场营销工具和跨境电商的营销,基本可以总结出以下结论:

营销的本质是围绕流量系统,获取曝光和转化。营销广告分为品牌广告和效果类广告,前者做头部,看曝光和美誉度;后者做smb,看留资和转化。

在短视频移动互联网时代,流量转化比门户、搜索时代更开放,因此下沉市场也开始做营销视频,只看性价比。

下沉市场的营销视频,只卖工具的价值不大,必须卖服务=工具+运营,交付的是结果,而不是轮子。
10