跟大家聊聊今天参加FORCE原动力大会的一些观察。
今天上午在主会场坐了一上午,信息量很大。
中午吃饭的时候,我特地找几个业内的好朋友聊了聊,大家都觉得这次发布会有些东西是很值得拿出来说说的。
我先画个重点:
第一,豆包大模型的日均token使用量已经突破50万亿,比去年同期增长超过10倍。
第二,这次发布的豆包1.8,主攻方向是多模态Agent。说明火山想做的不是一个更会聊天的模型,而是一个真的能帮你干活的AI。
第三,新发布的音视频创作模型Seedance 1.5 pro,解决了一个行业痛点,就是音画同步的问题。这个如果做好了,AI视频的实用性会上一个大台阶。
下面具体展开聊聊细节。
先说最让我意外的数据,是截至今年12月,豆包大模型日均token使用量突破了50万亿。
而且,这还只是一天的量。
豆包1.8这次升级的核心方向是多模态Agent。
要实现这个能力,模型需要具备几个非常关键的能力。
第一是工具调用能力。
模型得知道什么时候该用什么工具,浏览器、计算器、搜索引擎,它得会选会用。
第二是复杂指令遵循能力。
你给它一个复杂的任务,可能包含好几个步骤,它得能理解并且按顺序执行。
第三是规划能力。
面对一个大任务,它得会拆解,知道先做什么后做什么。
豆包1.8在这三个方面都做了定向优化。
在公开评测中,它在通用智能体测评集BrowseComp上的表现是全球领先的。
还有一个升级,就是豆包1.8的单次视频理解帧数从640帧翻倍到了1280帧。
这个能力在在线教育和产品质检场景里非常有价值。
比如像之前一个工厂的质检视频可能有几个小时,产品在传送带上高速移动,缺陷可能只出现在某一瞬间,现在就可以让AI自动找出有问题的那几秒。
而且,它还能用低帧率先快速浏览整个视频,找到关键片段后再用高帧率仔细分析。
有点像人类看视频的方式,先快进找重点,再慢放看细节。
这次发布的另一个产品是Seedance 1.5 pro,一个音视频创作模型,它解决了AI视频生成领域一个很关键的痛点。
以前AI生成的视频有个很明显的问题,就是声画不对位。
人在说话,嘴型是错的,背景音乐的节奏和画面的节奏也不匹配,就导致看起来很假。
Seedance 1.5 pro用了一个新的技术架构,叫原生音视频联合生成。
简单说就是声音和画面是同时生成的,不是先做画面再配音,而是一起出来的,这样就能实现毫秒级的音画同步。
还有一个功能很聪明,叫Draft样片。
做个AI视频的朋友都知道,AI视频生成是很贵的,不管是算力还是时间,成本都不低。
很多时候你生成了一个视频,发现不是自己想要的,只能重新来。
而这些废弃的视频,就是无效成本。
Draft功能是让你先生成一个低分辨率的样片预览,确认满意了再生成高清版。
关键是样片和最终成片的效果高度一致,你看样片觉得行,最后出来的成品就是那个效果。
好,说完产品,我想聊点更深层的东西。
谭待在发布会上说了一句话,他说传统的IT架构已经无法满足Agent时代的需求,以模型为中心的AI云原生架构正在形成。
我的理解是,以前企业用AI,就是调用一个API,把问题扔进去,拿答案出来,这是一个点状的使用方式。
但Agent时代不一样。Agent要能主动干活,要能调用各种工具,要能长时间运行任务,要能和企业现有的系统打通,这就不是简单调用API能解决的了。
你需要一整套基础设施来支撑Agent的运行:身份权限怎么管理?任务怎么调度?出了问题怎么追溯?和现有系统怎么集成?
火山引擎这次升级了AgentKit平台,又推出了HiAgent智能体工作站,就是在做这些事情。
他们现在不只是在卖模型,而是在卖一整套让Agent能在企业里跑起来的方案。
最后,分享一下我主观的整体感受。
这两年大模型的迭代速度太快了,去年我们讨论的东西已经和今年完全不一样了。
从对话工具到任务执行者,这个转变的意义比模型本身更聪明了几个百分点要大得多。
一旦AI能真的帮你干活,它的价值就不再是省点时间那么简单了。
它会改变你工作的方式,甚至改变很多岗位存在的必要性。
而方向,也已经很清晰:谁能更快地把Agent的能力做好,谁能更好地把Agent部署到企业的实际业务中,谁就能在下一个阶段占据优势。
至于最后能跑多远,还得看后续的迭代和市场的验证。
但至少,值得持续关注。