OrangeCLK的个人主页

即刻App年轻人的同好社区

下载

App内打开

OrangeCLK

514关注6k被关注11夸夸

互联网话题优秀贡献者

www.orangeclk.com
不用「您」字
不用「她」字

置顶

OrangeCLK

2月前

# OpenAI与新闻公司的合作伙伴关系
OpenAI已经和很多新闻公司签了协议，达成内容与产品战略伙伴关系（strategic content and product partnership）。
综合公开信息，协议内容大概包括几个部分：
- 用户可以使用ChatGPT的browsing插件获取这些新闻内容，并且以附带链接的方式展示给用户。
- ChatGPT会优先展示合作媒体的内容。
- OpenAI给新闻机构提供技术服务。
- OpenAI可以用新闻公司的新闻内容训练模型（细节存疑）。

OpenAI的知识产权与内容负责人Tom Rubin表示，目前签的协议“很大程度上”不包括用新闻数据训练这部分。个人猜测，只有和少数媒体巨头的合作才包括数据训练这部分，大部分其他的合作只是将媒体内容作为ChatGPT产品browsing插件的内容基底（LLM grounding）。

OpenAI支付的金额大概在每年数百万到数千万美元不等，不同媒体费用不同。

# 新闻业对大语言模型的特殊意义

截至目前，人工智能模型的训练还依赖外界的数据输入。人类世界发生的种种事情，只有在被记者制作成文字、音频、视频作品之后，才能够被模型习得。记者是把现实中发生的事转化为比特信息的职业。

当然，社交网络上也有很多信息在描述世界上发生的事情，但是这些信息质量良莠不齐。而数据质量对模型品质很重要123，社交网络数据需要再筛选。而且，社交网络巨头也不会轻易允许其他公司免费拿这些材料去训练，Reddit、Stack Overflow这些优质社区的数据，和新闻数据一样，也都是需要付费才能获取训练许可。

另一方面，RAG产品也需要让搜索的内容基底品质优秀，从阴谋论论坛帖子搜索信息，和从被信任的新闻机构搜索信息，输出品质天壤之别。虽然前者未必不满足用户需要，但一般而言不支撑目前“AI助手”产品的功能定位。

科技公司和新闻机构的关系已经变化。社交网络时代，科技公司和新闻机构是竞争者，双方竞争流量和广告预算。但在大语言模型时代，科技公司和新闻机构合作的空间更大，因为二者利益变得更加一致。新闻机构是大语言模型的上游，科技公司需要支持新闻机构存续下去来给自己提供训练素材和RAG基底。

目前主流新闻网站大多开启了付费墙，如果科技公司不付费，将没有办法合法地获取新闻内容提供给用户。为了满足用户查询时效信息的需求，科技公司也有必要获取新闻机构的授权。2023年，OpenAI的browsing插件下架了相当长一段时间，就是因为付费墙版权问题。

在大语言模型产品流行之后，很多消费者查询信息的需求已经被“AI助手”产品消化掉，新闻网站的访问量和收入进一步下滑，这一部分损失也可以由科技公司的信息使用授权费弥补。

# 搜索引擎与SEO 付费搜索引擎

汇集了大量用户的互联网头部产品会被流量猎手盯上，早年大家讨论百度比较多，现在谷歌搜索问题也很严重，小红书可能五年前作为优质信源崛起，而现在也已经成为伪科学和软广告的天堂。

中文用户可能只感到谷歌的中文搜索被SEO农场填充，觉得可能是谷歌对中文搜索疏于维护，但其实谷歌搜索的劣化现象不局限于中文。近年英文世界关于谷歌搜索质量下降的讨论已经越来越多。HackerNews和X上常见，推荐这两篇比较近且制作精良的讨论：
- How Google perfected the web (theverge.com)
- How Google is killing independent sites like ours - HouseFresh

同为搜索引擎，Kagi就没有这个问题。Kagi团队的努力固然很重要，但我想，如果Kagi成为流量很大的搜索引擎，那么也难以抵挡流量猎手的侵蚀。

我很喜欢Kagi团队的一个项目：Kagi Small Web。Kagi团队搜集了网络上的很多高质量小众站点。Kagi会把这些站点的内容放到搜索结果中，还会提供汇总的RSS和API。不太清楚这项工作需要花费多高的成本。

前几天有一篇网络文章流行：《中文互联网的崩塌》，里面提到作者用谷歌和百度搜索“马云”，时间选定在1998-2005年，发现都搜不到有效内容。但我用Kagi就可以搜到。旧网页本来就会逐渐丢失，但“崩塌”感也有相当一部分来源是搜索引擎与SEO产业对抗之后留下的后遗症。

流量高地注定要被流量猎手攻陷，那么Kagi这样的流量低地呢？由于流量太少，无法依靠广告支撑运转，所以Kagi的商业模式是付费订阅。没错，Kagi是一款付费搜索引擎。新闻业的规律在搜索引擎领域再次上演：免费的信息劣质，优质的信息不能免费获取。

这也很符合一分钱一分货的基本逻辑。低质信息会自己花钱寻求曝光在用户面前；而高质信息需要用户付费购买。

流量猎手会用AI生成很多低质量页面，获取主流搜索引擎的流量。相反，优质新闻却普遍有付费墙，无法被一般爬虫获取——即便开放给爬虫，这种获取也是违法的。所以，如果以互联网上可搜、读取的内容作为RAG基底，那么基底的品质就会难以控制。

最近一个典型的例子就是豆包对Perplexity和Google的污染，而Perplexity自己也在通过Perplexity pages污染Google。

OpenAI很早就积极和新闻机构谈判，付费获取内容。自己选信源，然后挨个找信源谈，再优选这些信源提供给客户；而不是陷入和流量猎手们的持久对抗。如果RAG的基底被劣质信息席卷，AI助理这个概念本身的需求就无法被完成，给流量黑客搭便车，还会损害自己产品的质量与口碑。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

大语言模型的新闻采购与SEO猎手

13 01

OrangeCLK

1天前

11 00

OrangeCLK

1天前

Kimi换了奥运会Doodle。

7 00

OrangeCLK

1天前

哈哈哈哈哈

兔非同学: 平时OpenAI一有什么风吹草动国内顶会媒体们洗稿比谁都快，这回Sam Altman亲自发WashPost倒是意外的风平浪静

4 00

OrangeCLK

2天前

ICML的tutorial也更新了，几个小时前我看他的官网还没更新

OrangeCLK: 朱泽园也开始在B站活跃了

1 00

OrangeCLK

4天前

我试了一下，不知道这个答案能不能满足需求。

根据文章内容，黄金震荡的原因包括以下几点：

1. 黄金交易转向交易避险和储备属性，未来走势更多受美联储货币政策走向、主要央行增持黄金储备势头等影响。
2. 近期地缘政治事件频发，不确定性持续发酵，对黄金交易情绪带来一定刺激。
3. 美联储降息预期逐步兑现，美国经济降温也对黄金形成利好。
4. 多国央行大力购金、地缘政治风险对冲以及中国国内对于黄金投资的需求，弥补了与美元、美债收益率相关的投资需求不足。

这些因素共同作用，导致了黄金价格的震荡。

# 参考文章
weekly.caixin.com
finance.caixin.com
database.caixin.com
international.caixin.com
international.caixin.com
mini.caixin.com
database.caixin.com
opinion.caixin.com

5 20

OrangeCLK

4天前

谨慎对待博士候选人阶段的公共作品，不管是什么学科的。

8 20

OrangeCLK

4天前

个人理解，标准指法：右手食指command，左手中指食指按cv。
或者更改键位，调换capslock和左command，左右可以小拇指按capslock中指食指cv单手操作。

Yishan: 我也有这个疑问很久了，我现在尝试了几种指法都不太对味。 - 拇指 command，食指 cv：轻量，按其他很难，需要右手辅助 - 无名指 command，食指 cv：尚可，左手位移量大，复位频繁 - 改 fn 为 command，小拇指按 fn：太远，也占用了 fn 键总结：难受。

4 10

OrangeCLK

4天前

9 40

OrangeCLK

5天前

其实并不是年纪越大水平越差，现在90岁以上的老师水平很高的。就是经历了文革的那一代水平差。
上大学听课特别明显，80岁以上和1980年代的老师水平明显比中间的强出许多。不怕不识货，就怕货比货。不过很难得能听到80岁以上老师的教导。
还有一点例外，境外背景比如港台的也没问题，问题就在文革，毁了一代人不是开玩笑的。

老蒋不一定靠谱: 虎嗅前同事发的票圈

26 12

OrangeCLK

5天前

木习习屈运栩: 全会要点解析

2 00