即刻App年轻人的同好社区
下载
App内打开
Kenny_肯尼
9月前
快速分析一下本周AI的几个关键进展,即梦 3.0 文生图模型,Genspark,还有智谱 AutoGLM 沉思版,都比较有意思,虽然还不算什么真正的模型突破。

1. 即梦3.0模型,中文设计继续断崖式领先

在即梦输入prompt,即可生成有创意文字的海报图片,这已经不是简单的文生图,而是逐渐通过模型往创作的上下游环节拓展,进一步缩短创意到作品的距离。这个逻辑有点类似,AI编程,不仅仅是基于现成的设计稿来做交互,而是可以直接生成有设计感的可交互的页面,带来的不仅仅是存量用户的效率提升,而是拓展了增量用户。

为什么即梦可以这么强?其实也没什么秘密,就是找有高质量的有文字的图片训练。为什么国内只有即梦一家?因为其他家的文生图投入度很低,资源少,做出来的东西基本都不能打,只有字节财大气粗。并且应用层业务也可以直接用SD和flux跑起来,插件生态还丰富,因此自己从零开始训文生图模型,优先级不高。国内的主战场依然是LLM,智力的提升,意味着未来更大的机会,可能带来新的分发入口。

当然,GPT4o的冲击太大了,这是一个完全不同的新物种,它比即梦3.0的创意空间更大,更灵活,并且还能准确生成很多小字。不过字节很擅长,因为看见,所以相信,会赶上的。

2. Genspark又是一个火爆Agent项目

Genspark跟Manus非常像,推测是Claude 3.7再加一堆MCP server,调用工具去执行任务,不过比Manus的工具更多。

里面两个案例比较有意思,一个是输入prompt,生成脚本,再生成视频素材片段,最后剪成一个短视频,但这个实操上不靠谱,内容赛道这么卷,这种视频是没什么播放量的,而且现在视频模型效果也没那么稳定,依然要大量抽卡,哪怕可灵是目前最强的,这个case看看就好,不要上头了。

所以Manus可能定义了通用agent的产品范式?但这肯定还是中间态,终态的Agent还是更倾向于OpenAI的Deep Research这样端到端训练出来的,更强规划反思和动态调整的模型,而不是workflow,虽然Manus的workflow已经足够简单。

3. 智谱的AutoGLM沉思版还不成熟

智谱之前做了AutoGLM,可以基于用户意图,操作软件点外卖发红包,那个我之前分享过,不靠谱,不会有人用AI来打车点外卖的,因为人做起来很简单也很快,不少技术直男大佬的想象力不足,总是想通过技术来取代他们眼前的东西,而不是拓展新的东西,所以产品经理还是重要的,来定义场景和能力。

现在出来的沉思版,方向上更靠谱一些,是把Deep Research再加上操作浏览器,可以访问小红书这些公域搜索引擎拿不到的数据,比较符合中国互联网的封闭国情。但是实际上做起来还挺难的,因为是让AI模拟人的操作去搜、看,中间很容易出问题,尤其computer use之类的能力,在图形化的识别精度不准,并且是操作本地电脑,不如Manus来个虚拟机稳定,最好还是通过接口来查询资料稳妥。

至于官方宣传的用沉思版做的小红书账号,两周涨粉5k+,还接商单,我不是很确定这里有多少AI,多少人工,这里大家也不要上头

https://mp.weixin.qq.com/s/RCVIMQqQB8UqpH9vUJxZdw

点击阅读原文
12

来自圈子

圈子图片

科技圈大小事

100万+人已经加入