最近在琢磨让产品让合理的融合AI,不是yet another chatbot.
最后想了一下谜底就在谜面上,强化学习本身就是答案,每一个阶段都需要更好的工具,需要的组件都能拆成公司去做。
我把我最近看的东西串了一下,前阵子看了HN发现的一本书High Agency
In 30 Minutes (
www.highagency.com) ,最近听播客
@yusen 提到的proactive agent, 张一鸣以前碎碎念的消费信息从pull到push( 头条抖音) 都是在说推模式(主动)会让系统更智能。
需要的组件基本是一样的,只有些技术细节上的微小差别,坏消息是这套系统需要的储存和计算依然很贵,好消息是
随手可得的LLM让搭建原型跑通整个流程的门槛大幅降低。
以前做系统的处理不了自然语言,要么做NLP的搞不定infra,现在云厂商把储存和计算都做到位了,素人做智能系统成了可能的事情。
Environment (环境): VM SANDBOX。
Agent (代理/观察者): 你的 "Memory" 程序。
Signal / State ($S_t$): 当前时刻的上下文。不仅是“谁在运行”,还包括“屏幕上有什么”。
* 特征: 屏幕截图 (OCR/Vision)、当前活动窗口、剪贴板内容、时间、之前的操作序列。
Action ($A_t$): 用户的操作。
* 类型: 点击 $(x, y)$、键盘输入、滚动、快捷键、切换应用。
Trajectory ($T$): 一个完整的任务流(Episode)。
* 例子: 打开浏览器 -> 搜索机票 -> 比较价格 -> 下单。这是一个轨迹。
Reward ($R_t$): (最难定义的部分) 用户的满意度或效率。
* 隐式信号: 用户撤销了操作(负奖励)、用户快速完成了任务(正奖励)、用户反复在两个窗口间切换(困惑/负奖励)。
图来自banana老师