🔥🙌果然我还是最擅长组织这种干货满满的硬核活动!在Anthropic 发布 Claude Computer Use 功能之后第三天,以顶尖 researcher + 网红 AI Agent builder + 头部 Agent infra founder 的阵容,讨论 Infra for AI Agents, 简直不能更完美!
🧠两位 researcher 的分享都是关于 Benchmark/eval, 可见对于agent 有多重要
👨🏫OpenAI 的Agent 大神 Shunyu Yao, 从webshop - SWE Bench - Tau Bench 的演变,探讨了web-computer-human simulation 作为infra 演变对于benchmark 的影响。对 Agent infra 的理解感觉又提到新高度!
👩🏫Shuyan Zhou 是CMU Prof Neubig 的得意门生,从Webarena 到 Visual webArena, 如何打造虚拟环境来benchmark multimodal agent, 设计和构建中的思路跟Shunyu 的分享相得益彰,真是期待 leaderboard 的刷新!
🛠️Builder panel, Podcast host 上身,我真是毫无忌惮的各种 follow up, 属于是完全不顾 question list 了。
💻- Replit Agent 是最早用上最新Claude API 的产品之一,换模型之后新能力的提升、agent 设计思路,作为核心成员的 James 都分享得超级真诚(Claude 比 4o香太多,尤其是涉及很多function call; 新API在多步骤任务表现提升明显, human in the loop 交互怎么设计 etc.);
🦄- Letta, e2b 两位硅谷Agent infra 明星公司founder 真的很 sharp (颜值也很高哈哈!)Charles 认为 RAG is overrated, 有时候 short context 可以表现更好, memory 永远可以用来提高上限;e2b 的sandbox 如何基于自己开发的痛点设计云端环境,scalability 挑战永远比预料得多…
💡🌟大家都感慨于model 升级对agent 能力提升的质变,infra is important (which is still underrated). 真是精彩不断。Closing question: what's overhyped and underhyped? 真是屡试不爽永远有惊喜。
🌇落日太美的场地,座无虚席、站票难求。从周一到周四短短几天,超过360人注册,邀请到场的100多嘉宾几乎都直接在做agent 相关的工作!(不能一一approve 还请担待!)观众的质量直接决定提问都很干,还见到了好几个明星公司的founder/builder!
🫶🧡感谢 BentoML, Eventual 的小伙伴们打理logistic 工作,还有CRV金主友情赞助!大家都配合我特种兵的节奏,从10/14 开始找venue, 到10/24 活动圆满举办,又是10天完成了百人活动。
📣顺便宣传一下 BentoML 组织的 AGI builder 全美巡演活动,看着都好棒! 欢迎美国各地的同学们报名~🤩🤩
PS 现场录制这么高级的事情肯定是没有,录音的话——哎我的红包呢!🧧