快速分析一下本周AI的几个关键进展，即梦 3.0 文生图模型

即刻App年轻人的同好社区

下载

Kenny_肯尼

9月前

快速分析一下本周AI的几个关键进展，即梦 3.0 文生图模型，Genspark，还有智谱 AutoGLM 沉思版，都比较有意思，虽然还不算什么真正的模型突破。

1. 即梦3.0模型，中文设计继续断崖式领先

在即梦输入prompt，即可生成有创意文字的海报图片，这已经不是简单的文生图，而是逐渐通过模型往创作的上下游环节拓展，进一步缩短创意到作品的距离。这个逻辑有点类似，AI编程，不仅仅是基于现成的设计稿来做交互，而是可以直接生成有设计感的可交互的页面，带来的不仅仅是存量用户的效率提升，而是拓展了增量用户。

为什么即梦可以这么强？其实也没什么秘密，就是找有高质量的有文字的图片训练。为什么国内只有即梦一家？因为其他家的文生图投入度很低，资源少，做出来的东西基本都不能打，只有字节财大气粗。并且应用层业务也可以直接用SD和flux跑起来，插件生态还丰富，因此自己从零开始训文生图模型，优先级不高。国内的主战场依然是LLM，智力的提升，意味着未来更大的机会，可能带来新的分发入口。

当然，GPT4o的冲击太大了，这是一个完全不同的新物种，它比即梦3.0的创意空间更大，更灵活，并且还能准确生成很多小字。不过字节很擅长，因为看见，所以相信，会赶上的。

2. Genspark又是一个火爆Agent项目

Genspark跟Manus非常像，推测是Claude 3.7再加一堆MCP server，调用工具去执行任务，不过比Manus的工具更多。

里面两个案例比较有意思，一个是输入prompt，生成脚本，再生成视频素材片段，最后剪成一个短视频，但这个实操上不靠谱，内容赛道这么卷，这种视频是没什么播放量的，而且现在视频模型效果也没那么稳定，依然要大量抽卡，哪怕可灵是目前最强的，这个case看看就好，不要上头了。

所以Manus可能定义了通用agent的产品范式？但这肯定还是中间态，终态的Agent还是更倾向于OpenAI的Deep Research这样端到端训练出来的，更强规划反思和动态调整的模型，而不是workflow，虽然Manus的workflow已经足够简单。

3. 智谱的AutoGLM沉思版还不成熟

智谱之前做了AutoGLM，可以基于用户意图，操作软件点外卖发红包，那个我之前分享过，不靠谱，不会有人用AI来打车点外卖的，因为人做起来很简单也很快，不少技术直男大佬的想象力不足，总是想通过技术来取代他们眼前的东西，而不是拓展新的东西，所以产品经理还是重要的，来定义场景和能力。

现在出来的沉思版，方向上更靠谱一些，是把Deep Research再加上操作浏览器，可以访问小红书这些公域搜索引擎拿不到的数据，比较符合中国互联网的封闭国情。但是实际上做起来还挺难的，因为是让AI模拟人的操作去搜、看，中间很容易出问题，尤其computer use之类的能力，在图形化的识别精度不准，并且是操作本地电脑，不如Manus来个虚拟机稳定，最好还是通过接口来查询资料稳妥。

至于官方宣传的用沉思版做的小红书账号，两周涨粉5k+，还接商单，我不是很确定这里有多少AI，多少人工，这里大家也不要上头

https://mp.weixin.qq.com/s/RCVIMQqQB8UqpH9vUJxZdw

点击阅读原文

13 12

来自圈子

科技圈大小事

100万+人已经加入