即刻App年轻人的同好社区
下载
App内打开
OrangeCLK
535关注6k被关注12夸夸
互联网话题优秀贡献者
www.orangeclk.com
不用「您」字
不用「她」字
置顶
OrangeCLK
6月前
# OpenAI与新闻公司的合作伙伴关系
OpenAI已经和很多新闻公司签了协议,达成内容与产品战略伙伴关系(strategic content and product partnership)。
综合公开信息,协议内容大概包括几个部分:
- 用户可以使用ChatGPT的browsing插件获取这些新闻内容,并且以附带链接的方式展示给用户。
- ChatGPT会优先展示合作媒体的内容。
- OpenAI给新闻机构提供技术服务。
- OpenAI可以用新闻公司的新闻内容训练模型(细节存疑)。

OpenAI的知识产权与内容负责人Tom Rubin表示,目前签的协议“很大程度上”不包括用新闻数据训练这部分。个人猜测,只有和少数媒体巨头的合作才包括数据训练这部分,大部分其他的合作只是将媒体内容作为ChatGPT产品browsing插件的内容基底(LLM grounding)。

OpenAI支付的金额大概在每年数百万到数千万美元不等,不同媒体费用不同。

# 新闻业对大语言模型的特殊意义

截至目前,人工智能模型的训练还依赖外界的数据输入。人类世界发生的种种事情,只有在被记者制作成文字、音频、视频作品之后,才能够被模型习得。记者是把现实中发生的事转化为比特信息的职业。

当然,社交网络上也有很多信息在描述世界上发生的事情,但是这些信息质量良莠不齐。而数据质量对模型品质很重要123,社交网络数据需要再筛选。而且,社交网络巨头也不会轻易允许其他公司免费拿这些材料去训练,Reddit、Stack Overflow这些优质社区的数据,和新闻数据一样,也都是需要付费才能获取训练许可。

另一方面,RAG产品也需要让搜索的内容基底品质优秀,从阴谋论论坛帖子搜索信息,和从被信任的新闻机构搜索信息,输出品质天壤之别。虽然前者未必不满足用户需要,但一般而言不支撑目前“AI助手”产品的功能定位。

科技公司和新闻机构的关系已经变化。社交网络时代,科技公司和新闻机构是竞争者,双方竞争流量和广告预算。但在大语言模型时代,科技公司和新闻机构合作的空间更大,因为二者利益变得更加一致。新闻机构是大语言模型的上游,科技公司需要支持新闻机构存续下去来给自己提供训练素材和RAG基底。

目前主流新闻网站大多开启了付费墙,如果科技公司不付费,将没有办法合法地获取新闻内容提供给用户。为了满足用户查询时效信息的需求,科技公司也有必要获取新闻机构的授权。2023年,OpenAI的browsing插件下架了相当长一段时间,就是因为付费墙版权问题。

在大语言模型产品流行之后,很多消费者查询信息的需求已经被“AI助手”产品消化掉,新闻网站的访问量和收入进一步下滑,这一部分损失也可以由科技公司的信息使用授权费弥补。

# 搜索引擎与SEO 付费搜索引擎

汇集了大量用户的互联网头部产品会被流量猎手盯上,早年大家讨论百度比较多,现在谷歌搜索问题也很严重,小红书可能五年前作为优质信源崛起,而现在也已经成为伪科学和软广告的天堂。

中文用户可能只感到谷歌的中文搜索被SEO农场填充,觉得可能是谷歌对中文搜索疏于维护,但其实谷歌搜索的劣化现象不局限于中文。近年英文世界关于谷歌搜索质量下降的讨论已经越来越多。HackerNews和X上常见,推荐这两篇比较近且制作精良的讨论:
- How Google perfected the web (theverge.com)
- How Google is killing independent sites like ours - HouseFresh

同为搜索引擎,Kagi就没有这个问题。Kagi团队的努力固然很重要,但我想,如果Kagi成为流量很大的搜索引擎,那么也难以抵挡流量猎手的侵蚀。

我很喜欢Kagi团队的一个项目:Kagi Small Web。Kagi团队搜集了网络上的很多高质量小众站点。Kagi会把这些站点的内容放到搜索结果中,还会提供汇总的RSS和API。不太清楚这项工作需要花费多高的成本。

前几天有一篇网络文章流行:《中文互联网的崩塌》,里面提到作者用谷歌和百度搜索“马云”,时间选定在1998-2005年,发现都搜不到有效内容。但我用Kagi就可以搜到。旧网页本来就会逐渐丢失,但“崩塌”感也有相当一部分来源是搜索引擎与SEO产业对抗之后留下的后遗症。

流量高地注定要被流量猎手攻陷,那么Kagi这样的流量低地呢?由于流量太少,无法依靠广告支撑运转,所以Kagi的商业模式是付费订阅。没错,Kagi是一款付费搜索引擎。新闻业的规律在搜索引擎领域再次上演:免费的信息劣质,优质的信息不能免费获取。

这也很符合一分钱一分货的基本逻辑。低质信息会自己花钱寻求曝光在用户面前;而高质信息需要用户付费购买。

流量猎手会用AI生成很多低质量页面,获取主流搜索引擎的流量。相反,优质新闻却普遍有付费墙,无法被一般爬虫获取——即便开放给爬虫,这种获取也是违法的。所以,如果以互联网上可搜、读取的内容作为RAG基底,那么基底的品质就会难以控制。

最近一个典型的例子就是豆包对Perplexity和Google的污染,而Perplexity自己也在通过Perplexity pages污染Google。

OpenAI很早就积极和新闻机构谈判,付费获取内容。自己选信源,然后挨个找信源谈,再优选这些信源提供给客户;而不是陷入和流量猎手们的持久对抗。如果RAG的基底被劣质信息席卷,AI助理这个概念本身的需求就无法被完成,给流量黑客搭便车,还会损害自己产品的质量与口碑。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

大语言模型的新闻采购与SEO猎手

01
OrangeCLK
1天前
OrangeCLK
1天前
一个细节:非典时期王志专访王岐山,全程用的称呼都是“你”字,这种平等感值得体会。我觉得“您”字一般而言不是一个尊重对方的称呼。

OrangeCLK: 而且现在观众也这样先入为主,当专业的主持人在挑战质问受访者的时候,或者是以小白的口吻询问问题的时候,观众还经常骂主持人说主持人不尊重嘉宾,不懂不要乱说之类的。

23
OrangeCLK
2天前
马斯克也是否也推动X往4chan的方向走了一步?

OrangeCLK: 从互联网社区生态来看,做大做强的都是有强管制的平台,平台会根据一定的规则删帖、封号,而且会时常更新管制规则。另一方面,完全放任的平台最后都成了小众平台,大多数人弃之如敝屣。 我曾经写过,社交网络是一场“身份游戏”,有一些人就在这样一场游戏中发现了财富密码,获得了常人未察觉的套利机会。 他们要享受高管制平台带来的红利,但是扮演的是反管制的身份角色,表达的内容是支持各路平台去管制化。而这样的言论在大平台很有市场,因为: 大平台本身都有很强的管制,用户深受其害,容易认同去管制的看法。 平台规模大、用户多、力量大,管制的受害者多。 现在互联网平台的管制策略还很不成熟,配套的法律制度也不健全。问题多,而且问题都能被大量用户看到。 他们通过谴责管制来获得管制带来的红利,最终酿得不可收拾的局面。 特朗普和查马斯有去4chan、8chan、Gab、Hatreon、Parler这种地方大声呼嚎吗?没有,他们只呆在Twitter、Reddit这种他们“不喜欢”的强管制平台上赖着不走。他们自己也知道,只有在这种地方,他说的话才会真正有影响力,才能影响到更多人、普通人。去了8chan就注定自己是个边缘人,什么竞选总统、什么股市捞金,皆成泡影。 强管制平台才是平台竞争中的胜出者,他们也才是真正有用的平台,是尽量平衡了各方权益的平台。而无管制平台,终究只会成为一小群疯子的狂欢之地。 最早的Reddit其实也是无管制平台,后来逐渐积累了一些规则。Reddit有一任CEO是Ellen Pao,刚一上台,他就发布了一条打击色情的规则:如果你发现有人未经许可上传你的照片,你可以向Reddit投诉,Reddit核实之后就会删帖。当时一些Reddit用户就对此很不满,认为这侵犯了他们的权利,但他们也不想想这些帖子是不是侵犯了别人的权利。在无管制平台的拥趸看来,说话不负责任的权利是大过天的。Ellen Pao后来铁腕管制Reddit,8个月后就下台了,他在华盛顿邮报撰文说:“互联网最初是一座表达自由的堡垒,但现在平衡各种权利变得非常困难,喷子赢了。” 特朗普和查马斯这些套利者在强管制平台呼吁各类平台去管制,以这种表态给自己牟利,这就是整个过程中特别有趣的地方。 当然,对于超大规模平台来说,谁来管制,怎么管制,这就是一个严肃的问题了。管制是否需要被否定?不需要。现在这种形式的管制是否需要被改造?我想是要的。 本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

01
OrangeCLK
3天前
还真挺像的,都是出现了一个没办法被现有社会规则控制的邪恶力量。大摇大摆违背规则然后说:你能怎么着吧。

Julian.: 中国一线城市对拼多多的批判,和美国一线城市对特朗普的批判,有相似之处吗?

02
OrangeCLK
4天前
Musk发布会搞了个期货样车。硅谷已经有一些公司做了robotaxi定制车了,极氪已经要向waymo交付robotaxi定制车了。马斯克的robotaxi不知道猴年马月能做出来。
01
OrangeCLK
4天前
Adam Tooze的Chartbook。民主党可能做得挺好的但这就是选举。
00
OrangeCLK
5天前
对AGI概念的态度
01:29
20