即刻App年轻人的同好社区
下载
App内打开
AI桐木
8关注12被关注0夸夸
3k star AI 开源项目 autoMate
曾蚂蚁金服智能客服
现国家级研究院深耕人工智能
AI桐木
8月前
既然当前 LLM 在复杂 Agent 任务上表现不佳,那出路在哪?我认为,基于参数的后训练优化,特别是强化学习(RL),是当下更可靠的方向! OpenAI PPO 算法,到今年 DeepSeek GROP,都展示了 RL 在提升模型能力和效率上的巨大潜力。RLHF 技术更是改善模型表现的关键。 同时,像 LoRA/QLoRA 这样的 SFT 高效微调技术也在快速发展,能以较低成本优化大模型。 虽然我们期待 LLM 的突破,但现阶段,深耕 RL 可能是让 Agent 真正“智能”起来的关键一步。为什么说强化学习(RL)可能是 Agent 的未来?RL 具体如何应用在 Agent 上?SFT 微调技术有哪些优势?想深入了解 Agent 的前沿技术方向,我在知识星球《AI桐木和他的贵人们》等你探讨!
00
AI桐木
8月前
当前 LLM 能力不足,很多人试图通过提示词工程、工具调用、多智能体协作甚至 RAG 来“曲线救国”,提升 Agent 效果。 但这些本质上是用“工程能力”弥补“模型能力”的不足。历史经验告诉我们,过度依赖工程弥补模型短板的公司往往走不远。 还记得前年火热的“提示词工程”吗?现在大模型进步了,简单的 Prompt 也能出好效果。警惕!模型的迭代速度远超想象,今天费尽心机做的工程优化,明天可能就毫无价值。如何避免在 AI 发展中做无用功?怎样判断哪些技术值得投入?Agent 的长期发展方向是什么?加入知识星球《AI桐木和他的贵人们》,获取我的前瞻分析和避坑指南。 #AI[话题]# #Agent[话题]# #智能体[话题]# #LLM[话题]# #大模型[话题]# #提示词工程[话题]# #PromptEngineering[话题]# #AI趋势[话题]# #技术迭代[话题]# #工程优化[话题]# #AI陷阱[话题]#
00
AI桐木
8月前
想让 AI Agent 帮你操作电脑?比如删个文件、自动通过微信好友?我用自己的开源项目 autoMate 亲测了! 结果呢?用了最新的 GPT-4o,即使我把提示词写得像“保姆级教程”(鼠标放哪、右键、点哪个按钮),删除文件的成功率也才从 10% 提升到 30%!换更贵的 GPT-4.5,效果提升微乎其微,成本却飙升十几倍! 让它识别微信“好友图标”更是灾难,无论怎么描述位置、颜色、样式,成功率不到 10%... 我甚至开始怀疑人生,为啥不直接用 OpenCV?多模态大模型在桌面任务上到底有多难用?我踩了哪些坑?有哪些暂时无解的问题?完整版实测体验和深度思考,尽在我的知识星球《AI桐木和他的贵人们》。
00
AI桐木
8月前
OpenAI 最近发布了《构建 Agent 实用指南》,看似权威,但我细看后觉得有点失望。指南过度聚焦 LLM,仿佛它是 Agent 的唯一核心。 但真的如此吗?他们定义的 Agent 是能控制应用完成任务的,可现实是...(留个悬念) 我基于 LLM 构建 Agent 的亲身经历,发现很多坑。难道我们都被“大模型思维”框住了?Agent 的真正潜力或许在别处! LLM Agent 为何效果不佳?OpenAI 指南忽略了什么关键点?想看我的深度分析和不同思路,欢迎加入知识星球《AI桐木和他的贵人们》探讨!
00
AI桐木
8月前
告别AI“推理/非推理”标签

有人说 Llama 4 是“最好的非推理模型”,但这种划分真的科学吗?🤔 AI 模型简单粗暴地贴上“推理”或“非推理”的标签,其实是一种误导。Nathan Lambert 建议,我们应该用两类不同的基准来评估所有模型:

1️⃣ 复杂推理任务(数学、逻辑、多步解决)
2️⃣ 不需要复杂推理的任务(文本分类、信息提取)

一个“推理能力”强的 AI,通常综合能力都不错,简单任务也能胜任。但反之不成立,就像小学算术高手解不了微积分。

如何更科学地理解和评估 AI 模型的能力?AI 的“智能”到底体现在哪里?加入我的知识星球《AI桐木和他的贵人们》,学习 AI 核心概念,提升你的 AI 素养! 拒绝被忽悠,真正懂 AI!关注我,获取 AI 科普干货。加入星球,系统学习 AI 知识,成为内行!

#AI模型 #人工智能 #大模型 #推理能力 #AI评测 #技术科普 #AI基础 #干货 #学习 #认知提升 #NathanLambert
00
AI桐木
8月前
Llama 4暴露Meta战略困境
Llama 主要面向开源社区和企业私有化部署,用户资源有限。理想策略或许是像 Qwen 2.5 那样提供从 0.5B 72B 的全系列模型。但 Meta 却似乎想走 DeepSeek 的大模型路线,意图“大而全”。然而,Llama 4 的开源协议比 DeepSeek MIT 协议限制多得多,要求标注、限制商业用途。🤔 一边想竞争,一边又放不开手脚,想争第一的包袱太重,反而可能违背开源初衷,失去了方向感。对比之下,OpenAI 持续引领方向(如 PaperBench)。

Meta 的战略到底出了什么问题?AI 巨头们如何在开源和商业化之间抉择?加入我的知识星球《AI桐木和他的贵人们》,探讨 AI 行业战略、开源生态和未来走向! 不止看技术,更要懂战略!关注我,洞察 AI 行业格局。加入星球,获取深度行业分析,理解巨头博弈!

#Llama4 #MetaAI #大模型 #AI战略 #开源 #DeepSeek #Qwen #科技评论 #行业观察 #人工智能
00
AI桐木
8月前
Llama 4逆天千万上下文!

Meta Llama 4 家族登场!最吸睛的 Llama 4 Scout 不仅是同类最佳多模态模型,更支持高达 1000 Token 的长上下文!🚀 采用 MoE 架构,据说训练计算量比 Llama 3 还少,仅需一块 H100 就能部署。但官方只放了 NIAH 评测结果,这足以证明其长上下文能力吗?RULER NoLiMa.3 的测试去哪了? 🤔

想知道 Llama 4 MoE 架构有何玄机?1000万长上下文的真实水平如何?加入我的知识星球《AI桐木和他的贵人们》,深入剖析 Llama 4 技术亮点与局限!

硬核 AI 技术解读,关注我没错!加入星球,看懂 Llama 4 的真正实力,掌握前沿技术趋势!
00
AI桐木
8月前
Llama 4发布疑云:评分造假?

Meta 本周末悄悄发布了 Llama 4,时机微妙引人遐想。更让人跌眼镜的是,他们在 LMArena 榜单上号称遥遥领先的分数,仔细一看官方博客小字,竟然用的是内部实验版 Llama 4 Maverick,而非公开发布的 Scout 版本!🤯 这波操作是不是有点“离谱”?背后反映了 Meta 怎样的焦虑和策略?

想深入了解 Llama 4 技术细节、Meta 的战略困境以及 AI 行业更多内幕?加入我的知识星球《AI桐木和他的贵人们》,获取完整分析和硬核干货!

关注我,带你拨开 AI 迷雾,看透大厂操作!加入星球,获取 Llama 4 全面解读和更多独家见解!
00
AI桐木
9月前
近一周AI Agent的概念满天飞,AutoGLM、UI TARS、Midscene 全都涌现了出来。我试用了一下这几款工具,真要让这些软件帮你干点电脑上的精细活儿,比如精准操作某个特定软件的复杂界面,完成一套严谨的业务流程时,你可能会发现…… 好像就有点卡壳了,要么慢吞吞,要么点不准,要么干脆“我不知道该怎么做”。

这就有点意思了。按理说,软件应该比真实的物理世界更规整、更容易被AI理解和操控,但现实好像并不是这样:反观具身智能领域,让机器人在现实世界里翻跟头、跳舞、端茶倒水,让汽车在路上自动化驾驶,另外本周发生的小米Su7自燃事件确实人让觉得惋惜,这件事暗示着自动化尚处于早期阶段,还不能完全脱离人的控制,但相比软件方向的进展,具身智能已经做的很好了,难道具身智能已经领先软件Agent了吗?

这件事可以从原理来看,现在很多软件Agent的核心大脑就是我们熟知大模型(LLM)。这东西很擅长画画、聊天、做总结和搞创作,但要让它像素级精准地、毫秒级响应地去点击一个按钮,拖拽一个文件,或者在一套复杂的软件界面里规划出最优操作路径,这基本不可能。为啥?因为它本质上是个“语言”模型,强项在于理解和生成文本信息,对于视觉空间的精确感知、快速的决策反应以及需要多步骤精确规划的任务,天然就不是主场。我们在之前的文章也分析过,现在的大模型缺少 精性、速度和规划能力。让它做这些精细操作,有点像让一位哲学家去干外科手术,道理能学会,但手速却怎么也跟不上。

那自动驾驶怎么识别路上的车、人、红绿灯?它依赖像YOLO这样的视觉识别模型,或者是基于Transformer直接训练端到端视觉模型,目标就是快、准、狠地识别出环境里的关键元素。识别出来之后会衔接一套复杂的规则系统(大量的if...else...),也可能有专门训练的端到端决策模型,来决定是刹车、是加速、还是转向。

这个思路,完全可以借鉴到软件操作上!想象一下,我们是不是也可以训练一个专门识别软件界面元素的“YOLO模型”,让它能一眼认出各种按钮、输入框、菜单项?然后,我们人类就像教实习生一样,亲自演示一遍操作流程:“先点这个按钮,再填这个表格,然后拖到这里……” 这时候,大模型(LLM)可以发挥它的强项,去“观察”和“理解”我们的操作意图,把这个过程总结成一个工作流或者一系列指令。这个过程其实可以借用RLHF来搭建一个场景,然后把这个能力就循环的建立了起来。

这周具身智能领域还有一个大事件,华为天才少年稚辉君所在的智元公司发布了roboBrain,这个模型的一个核心能力,就是观察人的行为然后总结成工作流,比如我们说“把一个茶杯放在盘子里”,roboBrain会输出“1 找到茶杯;2 抓起茶杯;3 举起茶杯; 4 将茶杯移到盘子上方; 5 降低高度;6 放下茶杯 ”,虽然它输出的结果很简单,但这里面有一个核心,现阶段让Agent去“看懂人做事”比让它“直接上手精准做事”要靠谱得多。

知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具

00
AI桐木
9月前
Hinton RLHF 就是一坨垃圾,但其实他想说 RLHF 是一种修补手段并不是核心的能力。以 ChatGPT 为代表的大模型的核心能力在预训练阶段,而 RLHF 仅仅为后训练的一种对齐手段,况且以 deepseek 为代理的模型已经逐渐减少后训练的工作量而采用蒸馏的方法。
00