即刻App年轻人的同好社区
下载
App内打开
Greener-Dalii
397关注297被关注1夸夸
👨🏻‍💻数字游民 | 🎨设计师 | 🤖AI鼓励师 | 🧘INTP
个人工作室→greenerdalii.top
来一起做朋友哇
Greener-Dalii
1天前
非常有深度的见解👁!必须置顶推荐!👍🏻
我只讨论到内容接口阶段,你的这篇文章是进一步的扩展,讨论到了隐私信任、意图、数据主权等必须要解决的问题,狠狠共鸣了🤗
最早Tim提出的Solid平台架构有点的类似的原型,不过这几年看起来发展很慢……希望能看到符合未来新的范式探索 //@Chong.: 共嗚一波 choooong.notion.site

Greener-Dalii: 体验了当下各类 XX Deep Research和类似Agent竞品,惊艳的同时还是比较粗糙和初级,因为未来还有以下基础设施问题等待解决才能释放Agent的潜力。 除了之前提到过的构建统一的Agent协同网络,如Anthropic的MCP路线和@常高伟_长山 的ANP路线(更看好👍项目地址→https://github.com/chgaowei/AgentConnect),来实现Agent间更加安全高效的协同。对于内容生产者来说,以前是需要面向搜索引擎做好SEO,未来最基本的则是要面向Agent做好AEO(Agent Engine Optimization),以使得自己的内容能高效的被Agent获取、处理和交互。 因为现在大多数互联网内容本质上不是对AI Agent友好(毕竟目前网页是给人看的,尽管AI能理解自然语言和多模态,但中间损耗太大,比如Deep Research虽可以成功拆分规划任务,但到了按步骤搜集数据时,许多网页结构、内容存储形式等都会让AI“翻箱倒柜”而解析困难🤯🤯🤯很多数据对于AI Agent来说还是太深、太“dirty”)。 一个临时的过渡方案是所有网站都尽快上线自己的API服务,将自己所有数据API接口化以方便Agent获取,但最终还是需要重构内容生态。 现如今互联网网页这一形式也许已经过时(HTTP是诞生了30年的爷爷辈技术👨🏻‍🦳我知道有HTTP3,不要杠),我认为Web3.0未来主体应当面向AI而非只有人类(包含面向人类可读的👀、冰山一角的“表信息” + 面向Agent的高密度、结构化、不可读的、冰山之下大量的“暗信息”),未来多数人其实并不需要亲自浏览网页来查找信息和解决问题,就像Google PageRank的出现取代人工索引站、字节跳动新的信息分发算法取代传统内容综合门户一样,Web3和Agent的结合会重构人类知识,带来更广阔的场景,我们要打开想象🤗🤗🤗欢迎讨论~

00
Greener-Dalii
2天前
体验了当下各类 XX Deep Research和类似Agent竞品,惊艳的同时还是比较粗糙和初级,因为未来还有以下基础设施问题等待解决才能释放Agent的潜力。

除了之前提到过的构建统一的Agent协同网络,如Anthropic的MCP路线和@常高伟_长山 的ANP路线(更看好👍项目地址→github.com),来实现Agent间更加安全高效的协同。对于内容生产者来说,以前是需要面向搜索引擎做好SEO,未来最基本的则是要面向Agent做好AEO(Agent Engine Optimization),以使得自己的内容能高效的被Agent获取、处理和交互。

因为现在大多数互联网内容本质上不是对AI Agent友好(毕竟目前网页是给人看的,尽管AI能理解自然语言和多模态,但中间损耗太大,比如Deep Research虽可以成功拆分规划任务,但到了按步骤搜集数据时,许多网页结构、内容存储形式等都会让AI“翻箱倒柜”而解析困难🤯🤯🤯很多数据对于AI Agent来说还是太深、太“dirty”)。

一个临时的过渡方案是所有网站都尽快上线自己的API服务,将自己所有数据API接口化以方便Agent获取,但最终还是需要重构内容生态。

现如今互联网网页这一形式也许已经过时(HTTP是诞生了30年的爷爷辈技术👨🏻‍🦳我知道有HTTP3,不要杠),我认为Web3.0未来主体应当面向AI而非只有人类(包含面向人类可读的👀、冰山一角的“表信息” + 面向Agent的高密度、结构化、不可读的、冰山之下大量的“暗信息”),未来多数人其实并不需要亲自浏览网页来查找信息和解决问题,就像Google PageRank的出现取代人工索引站、字节跳动新的信息分发算法取代传统内容综合门户一样,Web3和Agent的结合会重构人类知识,带来更广阔的场景,我们要打开想象🤗🤗🤗欢迎讨论~
106
Greener-Dalii
7天前
刚在官网试了试Mistral新发布的模型,虽然推理速度飞快,但是还是欧洲老毛病,安全规则设定得太严太死,稍微开放的讨论,就回复“不能继续讨论”,Prompt-Hacker也不行🙄🙄🙄简直犹如广电审查标准,让人摸不着头脑,属实是自断双臂,茶壶里煮饺子,搞不懂这模型能干嘛…老欧们的文字狱还是厉害😶

Le Chat - Mistral AI

00
Greener-Dalii
10天前
怎么有种感觉,川普和老马这组合说不定还真能成事儿啊🤔🤔

川普的「莽」+ 老马技术驱动的DOGE相结合,处理盘根错节的官僚主义和Deep State,说不定还真有神效,拭目以待了👀继续观察ing
00
Greener-Dalii
12天前
新年收假第一天,趁着DeepSeek还没爆满,错峰出行,和它聊了一段震撼我一整年的内容和大家分享,脑瓜嗡嗡的,后面我不敢继续聊了,我要自我降维😅刷一段多巴胺短视频对冲一下
(纯属娱乐,不要当真,欢迎讨论)
45
Greener-Dalii
17天前
太棒了!硅基流动上线速度果然一流!👍终于国内也有稳定的R1可用了,能减轻DeepSeek官方压力了✌

袁进辉: Siliconflow 平台可以体验DeepSeek V3和 R1了,欢迎多试用和反馈问题

00
Greener-Dalii
19天前
看了笑嘻了😅
如果有时间还是去读读R1论文吧,论文里最重要的创新是R1-Zero,Zero在训练的时候压根就没有用任何蒸馏和监督数据,通过无监督的强化学习就实现了比拟o1的强推理能力,后来为了让可读性更好,和人类习惯对齐,才用了少量的SFT数据(没记错的话约800k)和数千条的CoT数据,就才这点数据里面,有多少比例是来自OpenAI论文不知道,但其中还有一部分的ds-v3的数据,咋到你这就成了完全蒸馏OAI了??
我很尊敬OpenAI的贡献,真的,实话,但你这OAI精神股东的发言看起来确实有些有失偏颇😅😅你说是吧,哥们? //@追风少年_17Da: 我的看法:
1.未经对方允许就使用对方的合成数据进行竞品训练这种行为绝对是道德有问题,不管你的目的有多伟大高尚哪怕是为了全人类的福祉不盈利。
2.没有人的屁股是绝对干净的不代表你就有道德制高点可以直接蒸馏别人的模型回答去训练竞品,别人从互联网上偷来数据费劲吧啦地进行训练和做实验,耗费大量的公司资源:时间人力物力财力,和你直接从对方的产品蒸馏答案去训练竞品,显然你更加可耻,屁股更加不干净,最后还理直气壮地以对方的训练数据不干净所以你就可以直接蒸馏对方的训练结果来为自己的偷窃行为合乎道德化,实在是可耻中的可耻。
3.偷互联网数据来自己训练和偷别人模型回答数据来蒸馏根本就不一样。openai擅自使用大量互联网上的他人数据进行训练不是合理使用,而其它公司直接蒸馏openai公司的回答数据更不是合理使用。理由:自己使用互联网数据来训练和直接蒸馏别人已经训练好的模型回答来训练性质完全不同,并不仅仅是自己节约了搜集互联网数据的那点不值一提的成本,还有训练开发模型的隐性成本,比如openai的科学家们,工程师们,其它工作人员的脑力成本,测试实验成本,高昂的芯片算力采购成本,摸石头过河的心理成本,兑付投资人的压力,训练消耗的电力和员工工资等叠加的综合成本。
并且,偷互联网数据和偷模型回答数据来进行训练得到的性能质量也完全不同,蒸馏的目的不仅仅是为了节约训练成本,也在于看上了模型更好的训练质量,如果模型的回答质量很差,还会有人想要去蒸馏它吗?应该不会,如果自己用互联网数据去训练就能够得到比蒸馏的性能还要好,还会有人去蒸馏吗?看性能提升是否巨大。
4.综上:openai怎么就没有资格限制你来蒸馏了呢?你直接偷他的模型回答去开发跟他类似的竞品还这么理直气壮,就因为他训练模型时使用了偷来的别人数据?所以你就自以为有了道德制高点傍身,有资格去偷他模型的回答去训练自己的模型了?你偷的可不仅仅是他的合成数据,还有回答数据背后隐藏的openai所有工作人员的汗水。

歸藏: 可以从技术层面坚持不使用合成数据蒸馏,也可以从成本考虑使用合成数据。 这无关道德,优秀的模型才是根本,整个新 AI 领域的数据来源早就是一团乱麻,没有人的屁股是干净的。 合成数据可能比直接用全量用户数据对用户来说更安全一些。

42
Greener-Dalii
19天前
OAI真是笑死人😂AI界的数据大家屁股都“不干净”,本来就是公开可访问的,难道说谷歌还要起诉OAI用了他们的Transformer么?

我估计这几天DeepSeek被用崩,里面保不准有很多流量也是老美各研究机构用来扒R1的CoT数据的

歸藏: 还是来了 美国国家安全委员会说要对 Deepseek 进行调查 Open AI 跟金融时报说他们有证据表明 Deepseek 用了他们数据 同时昨晚 Open AI 员工承认 Deepseek 独立发现了 O1 训练的一些核心路径

00
Greener-Dalii
20天前
我其实也十分担心,目前电诈集团已经在快速落地最前沿的AI技术,无论是文字模仿,还是声音克隆,亦或是视频伪造,我怕我们这代人,或者进一步讲5~10年后的老人,都会面临更有迷惑性的诈骗方式🙁

rosicky311_明浩: 谁曾想2024龙年的最后一天, 是两篇AI写的fake文(上午nvidia老黄的内部信+晚上deepseek梁文锋的知乎回答)刷屏了所有人的社交媒体… 🤷🏻‍♂️🤷🏻‍♂️🤷🏻‍♂️🤷🏻‍♂️

00