即刻App年轻人的同好社区
下载
App内打开
成荫
2月前
推荐系统如何结合大模型,这个话题很有意思。尝试从产品角度回答一下。没想到写起来刹不住车,有上千字,全贴在这里,大家自取~

推荐可以理解为一种匹配,把内容和用户匹配起来。在匹配时候,要理解双方分别是什么。即:内容理解和用户理解。

不要小瞧内容理解,特别是在视频领域。文本内容的理解相对容易,因为信息都是文字,可以相对容易的刻画一篇文章在讲什么。但在视频领域,内容理解一下就复杂起来,因为信息更多存在于图面中。现在短视频平台上很多视频,只有背景音乐,没有文字描述,怎么把这个视频的信息刻画出来,是一件有挑战的事情。比如一个视频是小姐姐在跳舞,这个小姐姐穿了什么在跳舞,在跳什么舞,跳的好不好,在哪里跳,这些要素都会显著影响一个视频的特点和受众。视频的类型又很多,颜值、音乐、舞蹈、历史、财经、科技、科普、法律、医疗等等等等,每类内容,都是生活里的一个缩影。因为我们只生活在自己小世界的局部,我们可能意识不到,大千世界各种要素叠加在一起,量级至少是百万级的。

我们知道,当前推荐系统非常依赖于协同过滤,它的主要思想是把和你有相似偏好的人的内容,推荐给你。这种相似偏好,纯粹是内容ID上的相似度,不是特征上的相似度。不知道大家有没有思考过,为什么推荐系统走了这样一条有点绕的路径?它为什么不直接把你喜欢的内容推荐给你?答案其实是,它不知道这个内容是什么,它不知道前面例子的视频是小姐姐在随便扭扭还是认真在跳拉丁舞。或许你会疑惑,即使没有大模型,现在的小模型也能识别小姐姐、小姐姐衣服的类型、跳的舞种。没错,现在的模型已经能在单点任务上做到80分了。但前提是,需要大量的人工标注样本,喂给小模型,小模型才能做到。但小模型最大的问题是,无法泛化,所以每个特征都要单独做标注、训练。上百个特征的人工标注成本,对抖音这样的平台还能承担,但百万级呢,成本和效率是完全打不住的。

好,接着大模型这个明星闪耀出场了。大模型带来的最大变量是,它有了通用性,这种通用在于,它像一个百科全书,知道人生活的方方面面。大模型能看出来,“这个视频里,有个人,这个人是个小姐姐,小姐姐长着黄棕色头发,蓝色眼睛,看着像是个欧洲人,她穿着一条黄色长裙,在跳拉丁舞,她在一个广场上,广场后面是巴黎圣母院。天空很蓝,漂浮着棉花一样的白云。过了一会儿,慢慢有路人围观过来....” 。前面这段简单的描述,对人来说一眼便知,看起来稀疏平常,但这里面的很多要素,要很多小模型才能做到,现在仅仅一个大模型,有很大希望就能做到了。这种改变是巨大的,它会把内容理解提升到一个崭新的高度。

如果模型能充分地理解内容,现在推荐的交互形态,很可能会发生变化。一个可能的变化是,你可以自定义你的推荐流。比如你很关注AI,你可以定义告诉平台,“我想看AI方面的最新进展,只要相对可靠真实的,不要标题党”。自定义频道,它可以让你从被动接受推荐系统模糊猜测、众多干扰信息中的推荐流中解放出来,只看你关心的内容。至于自定义频道和当前的搜索、推荐、关注的关系,有机会再展开讨论。

接着到下一个关键点上:用户理解。“微信调 LLM API 读你实时聊天记录判断你目前的关注点给你做相关内容的推荐”,这个想法很好,在不考虑隐私问题的前提下。这里我们先不考虑隐私问题,单纯从产品角度讨论下。用户理解可以拆分成两个层面:一是人的社会经历和性格特质,二是人对经历的反应,这其中又包含长期偏好和短期反应。

先说第一点,社会经历比较好理解,比如我是一个女性(那么我很可能对女性向内容感兴趣),在北京工作,在互联网公司上班,是一名基层打工人(我可能对互联网打工、社畜生活内容感兴趣),我有个男朋友,正在谈婚论嫁(我可能对两性关系内容感兴趣)等等。性格特质也无需多言,由先天基因和后天经历共同塑造。这两个对于现在的推荐系统来讲,都是非常难以明确刻画的,因为缺少信息。
第二大点,人对经历的反应,是人在经历过种种事情后,形成的生活态度、情绪反应,分为短期和长期。长期偏好,包括喜欢什么样的对象、买东西时追求性价比还是享受高消费的快感、喜欢什么运动等等。短期反应,比如今天要聊绩效了,内心很忐忑或者很有信心。在内容领域,用户对内容的偏好,既有长期偏好也有短期兴趣,可以通过与推荐系统的交互逐渐反映出来。但存在一个问题是,只有逐渐的调教推荐系统,系统才会知道。

这里的问题点在于,当用户对某类内容开始感兴趣时,一定是先在生活中发生了什么变化,经历了什么事情。比如我找男友时,我需要的是怎么找到合适的男友这类内容,等我找到男友时,我就不需要前面的内容了,我开始想看如何和对象融洽相处这样的内容。所以微信聊天记录非常有用,因为只要是生活中的大事,一般肯定会在微信里跟朋友提到,而且是发生之后很快会跟朋友分享。微信聊天记录人经历了什么事情,对这些事情有什么反应,是一个人「生活变化的缩影」。注意这里,关键是“变化”。

然而,我们知道,我们并不会什么事都在微信里说。在海边看到大海,在林间听到鸟鸣,在餐厅尝完一顿美食,在花园里闻花香,在家里抚摸宠物猫猫...我们所看到的、听到的、尝到的、闻到的、触摸到的,要比微信里提到的事情丰富太多。按照「记录经历」的角度推演,有什么能记录这一切吗?之前很多的VR智能眼镜,算是提供了一种实时记录 看和听 的途径,还没有把味觉、嗅觉、触觉,补充完整。除了这些经历,还有我们的反应。如果我们用「语言」表达了自己的感受,那一个能方便佩戴、实时记录五官感受和语言的设备,几乎就知道我们的全部了。就相当于有一个“Her”,跟着我们一起经历着一切。

还没有结束。我们都曾经历无言的时刻,那些语言无法表达了我们感受的时刻。人的大脑有860亿个神经元,平均每个神经元有3000个连接,时时刻刻都在产生无数脑电波。人类的语言把这些脑电波凝练表达了出来,实现了人与人之间基本的沟通。我们有时候会不知道自己在想什么,其实更多是在说:不知道该怎么用语言表达所想的。用计算机术语来讲,可能「语言是人类脑电波的Transformer」。真正地理解一个人,应该是去理解它的脑电波。如何理解脑电波,很重要的方式是用脑机接口了。我第一次想到这里的时候,不得不佩服马斯克重金投入脑机接口公司,又是一个多么从第一性原理出发的决定。

好了,这次到这里就结束了。没想到开写之后,竟牵扯出这么多内容。关于推荐系统,如果你还有什么话题想讨论,欢迎在评论区留言!最近打算输出一下,也算是对做推荐产品以来收获的总结。

Yuaaan.: 推荐系统可以如何结合 LLM? 如果只是用 LLM 给内容自动化打标,就显得有点蠢。 但我觉得是不是有些 in-app 跨场景/跨功能联动的可能性,例如微信调 LLM API 读你实时聊天记录判断你目前的关注点给你做相关内容的推荐? 或者我们这么想:现在公域内容的信息分发是搜索+推荐,似乎搜索满足了你更即时的 intention,推荐满足了你更长期的 intention。那有没有可能做更及时的推荐?

1522