即刻App年轻人的同好社区
下载
App内打开
歸藏
563关注24k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
00:15
不知道谷歌咋优化的,

Gemini 3 Flash b 模型在swe-bench verified arc-agi-2 两个测试集的成绩居然超过了 Gemini 3 Pro
00
歸藏
00:11
来了!谷歌发布 Gemini 3 Flash 模型

相较于 Gemini 2.5 Flash 稍微涨价,但是在几乎所有基准上都超过了 Gemini 2.5 Pro 的的分,速度提升 3

推理效率也很高,完成日常任务时,平均使用的 token 2.5 Pro 30%。

多模态推理能力和代码能力依然相当强悍

已在谷歌全平台上线
20
歸藏
1天前
看着各家都开始发力了,腾讯坐不住了

开始了新的 AI 组织架构升级,姚顺雨担任 AI Infra 部、负责人。

TEG新成立「AI Infra部」、「数据计算平台部」,「数据平台部」更名为「AI Data部」,撤销「机器学习平台部」。

在人事方面,「AI Infra部」负责人应该就是就是95后的姚顺雨。

姚顺雨任职首席AI科学家,向刘炽平汇报;同时兼任大模型部负责人和AI infra部负责人,直接向庐山(TEG负责人、集团SVP)汇报。
63
歸藏
1天前
试了一下飞书升级的 aily 工作助手,非常强!

它甚至能实现帮你定时地从你整个企业的文档中总结、提炼信息,搜索补充之后生成网页。同时在网页里还有播客,这个一句话就能搞定,太牛了!

企业在飞书积累的的上下文终于可以释放出他的巨大价值。

介绍一下具体的能力:

它可以快速帮你整理和总结各种文件(飞书的文档、表格、会议纪要等)。

另外,它还具有信息搜索能力,可以从外部搜索知识,对你的文档和信息进行补充。

它还可以帮你撰写各种报告、活动策划和宣传文案。同时,这些内容会自动帮你创建成飞书云文档。

这个功能非常方便,尤其是对于一些用飞书的工作人员来说,不用自己来回复制查找,只需要在云文档里进行编辑。这是一个把文档变成了和AI共创的过程。

另外,它支持生成图片、海报、播客、网页等各种你能想到的模态内容。

比如我这里让它检索我飞书文档中所有涉及到Nano Banana Pro的图像提示词,他很快就搜索出来了。

我让他为我这些图像提示词和图像做一个网页,展示这些提示词。我都没想到他能完成,真的,结果非常完美。

我一直想整理我的这些提示词,现在一句话就搞定了。

然后我想试一下更复杂的。我找了一个飞书云文档中的一个文档,让它把这个文档变成网页。同时网页里面需要嵌入一个播客来讲解这个产品,一句话就搞定了,没有修改。

更重要的是,它用豆包生成了网页中的产品介绍图片和海报,然后把这些图片嵌入到了网页里,直接帮你把网页素材生成了出来。而这个我是没有要求的,它自己处理的。

另外,它也支持定时任务。你完全可以将你每天必须要做,或者每周必须要做的一些调研任务、内容生产任务,全部都让它在你规定的时间前处理好,然后同步给你的飞书。

最后,你想说有些数据不在飞书里,我们企业的数据在其他系己里面应该怎么办?他们支持自定义MCP工具,你可以通过这个 MCP 直接把企业内部的一些数据也同步给 aily。

提示一下:aily检索企业内知识,仅支持企业账号。个人版本暂不支持搜索,但是可以发给aily特定文档进行处理。
28
歸藏
1天前
Deepseek 离职之后加入小米的罗福莉也注册了推特,看来新模型是她主导的

介绍了一下昨晚小米发布的 MiMo‑V2‑Flash 模型技术细节

架构:采用 Hybrid SWA(混合可加权注意力)。在长上下文推理上优于其他线性注意力方案,且固定 KV cache 更适配当前基础设施。窗口大小以 128 最佳;512 反而降性能;“sink values”必须保留,不能省略。

MTP(多 token 预测):对高效 RL 很关键。除首层外只需很少微调即可拿到较高 accept length。3 MTP在编码任务上实现 >3 accept length 和约 2.5×速度提升,能解决小批量 On‑Policy RL 长尾样本导致的 GPU 空闲问题。本次因时间未并入 RL 回路,但非常契合;3 MTP已开源,便于社区开发。

MOPD 后训练:采用 Thinking Machine On‑Policy Distillation,将多个 RL 模型融合,效率收益显著。相较标准 SFT+RL 流程,计算量降到不足 1/50 仍可匹配教师模型表现,并显露出“学生自我强化为更强教师”的演进路径。

强调务实工程与产线友好。Hybrid SWA + 固定 KV cache 提高长上下文与部署效率;MTP 带来训练/推理并行收益;MOPD 以极低算力复刻/融合 RL 能力。
14
歸藏
1天前
最近各种哈基米风格重新演绎经典小说和影视剧的内容爆火。刷到好多几十万赞的视频。

我抽象了一下他们的创作方式,然后整理成了 Medeo 的提示词

这个目前非常容易起号,建议有想法的可以赶紧行动一波

这里用哈基米风格重新演绎诡秘之主里克莱恩第一卷的蜕变过程

具体方式就是把几个知名的Meme形象(dora、耄耋、奶龙....)图片和提示词一起放到Medeo里面。

Medeo 哈基米 Meme 风格小说、影视剧、真实事件讲解视频提示词:

请启动全流程视频创作模式,基于我提供的经典影视剧或小说《诡秘之主》的剧情逻辑和关键的一段剧情,制作一段风格独特的第三方叙事视频,先检索或者在知识库中查找这个小说或者影视剧的经典桥段或者世界观。

首先,请深入分析我上传的参考图片中的角色形象(例如耄耋、企鹅、奶龙、噜噜等),提取它们的生物特征与神态,生成图片的时候,务必要保证它们的(面部和身体)露出服装外面的部分要与原图完全一致,用Gemini生成图片的时候,不要把名字写到提示词里,就只说根据我上传的参考图生成什么什么图片就行,防止名称误导模型并利用你的知识库检索原著作品中主角与反派的经典造型。你需要将这些萌宠角色无缝代入原著角色的身份,要求它们身着原著中极具辨识度的古装、战甲或现代戏服,衣物材质要有布料或金属的真实纹理,只有头部或者漏出的身体采用 Meme 的形象,服装还是原著的服装。但身体比例和脸部特征保持原有的萌系或滑稽感,形成一种强烈的反差萌。

画面风格方面,采用水墨风格迪士尼皮克斯风格的2.5D高品质渲染。需要使用 Gemini 生成图片,角色装扮需要符合原著,光影要明亮且富有通透感,使用次表面散射(SSS)技术表现角色皮肤或毛发的细腻质感,背景采用微缩景观般的精致建模,色彩饱和度适中,营造出一种像是置身于高昂动画电影中的视觉体验。

剧情构建与分镜生成上,根据我提供的剧情内容,务必保证叙事的完整,不要偷懒节省图片和镜头,镜头语言要流畅,多使用缓慢的推拉镜头来强调情绪的转变,必须以耄耋这只猫咪为主角,其他群众也是猫咪的样子,主要配角选择“奶龙”、“噜噜”或者“企鹅”。

最后,也是最关键的,请生成一段第三人称的旁白口播文案,并配上深沉但略带反差的纪录片式男声。文案必须严格遵守以下“哈气和哈基米”的语言体系:将所有人类种族或家族称为“某某咪”(如萧咪、纳兰咪);将所有的攻击、斗气、内力或魔法或者权谋斗争统一称为“哈气”;在描述剧情的关键道具的时候,在道具名称后加上“南北绿豆”这个词作为完整的道具名称;将原本严肃的修炼等级或地位描述得像是在几个 Meme 打架。旁白语调要一本正经地胡说八道,配合画面中萌宠们严肃又滑稽的表演,完成对原著经典桥段的解构与重塑。

具体的文章内容为: XXXXX
01:30
38
歸藏
2天前
OpenAI 有可能今晚发布新的图像模型

他们发了一张新图像模型生成的 Sam 的照片

图片领域卷起来了啊
20
歸藏
2天前
小米最近 AI 动向挺多啊,开源了 MiMo-V2-Flash 模型

并且发布了一个 Chat 网页产品用于体验这个模型,从演示来看代码能力也相当不错!

总参数309B、每token激活15B;原生训练32K并扩展到256K上下文。

每秒 150 个 token 推理速度提供服务。

同时保持超低成本:每百万输入 token 仅需 0.1 美元,每百万输出 token 仅需 0.3 美元,目前 API 免费

这里体验:aistudio.xiaomimimo.com
25
歸藏
2天前
字节今天发布了 Seedance 1.5 Pro 视频生成模型

也支持音画同出,比较离谱的是他们支持方言

这一手老陕西人吃面的时候说的陕西话,太牛批了

纯文生视频
00:12
914
歸藏
2天前
Medeo 1.0 终于上线了,这是我认为第一个真正意义上的视频 Agent

试了一下相当惊艳,具体的特点有:

- 支持非常灵活的通过自然语言进行修改
- 支持超过上千字的超长提示词
- 提供非常好的泛化性,各种风格和垂类都可以做。

写了基础教程,并探索了三套非常好的提示词:mp.weixin.qq.com

由于篇幅所限这里先分享一下 Medeo 的基础教学和使用技巧以及他们关于视频 Agent 的思考

学一下基础操作

1️⃣第一个部分是他们的一些模板,这里不是只有画面风格,他包含了画面、台词、剪辑方式以及音乐等一系列优质视频的必要要求,你可以选择一个你喜欢的直接套用。

2️⃣第二个部分很好理解了,你可以选择生成横版或者竖版视频,这里目前只支持 16:9 以及 9:16 两个常见比例。

3️⃣第三个部分,里面支持超多的自定义设置,如果你对细节要求较高可以选择,比如视频时长、具体生成的类型只生成图片或者是视频、画面风格、配音的声音。

4️⃣最后一个部分是素材上传,支持直接从 URL 里面拉取其中的文本和图片作为素材,也可以自己上传对应的文本和图片。

基本上,你在输入框直接描述你的视频生成需求,就可以开始创作。

而且这里你也不需要过于详细地描述需求,因为 Medeo 是支持后续通过自然语言对生成的视频进行修改的。

比如,这里前面有两段素材重复了,你就可以告诉它这两段素材的位置,然后让它重新生成,并且替换。它可以很完美地执行这些操作。

当然,更简单的是让他自己找出重复的素材然后替换也行。

Medeo 几乎支持市面上常见的所有图像和视频模型

由于非常强的泛化性,你可以通过提示词指定他具体使用哪些模型生成图片或者视频,再或者直接用 Sora 这种模型直接生成完整视频。

他甚至非常聪明地自己在决定什么时候该用文生图,什么时候该用图生图。

除了支持自然语言编辑,Medeo 依然支持在左侧使用你熟悉的剪辑页面编辑,这个也是独一份的体验。

你可以拖动每个分镜的边界线去控制分镜的时长,也可以直接在 Audio script 部分编辑对应文案,还能具体定义每个音频的音量和时间。

他们为什么可以做好

从官号和跟他们日常聊天了解了一下,他们为了实现质量和灵活度都兼顾的 Agent 架构做了哪些事情。

传统的视频生产产品,其实一直以来都面临着如何解决和平衡 使用门槛、生产成本和效果控制 这个不可能三角的难题。

一些产品可以产出非常复杂而且高质量的内容,但是与此同时带来非常高的使用门槛和学习操作成本;

一些我们说的套壳产品,快速接入了各种模型和工具,但是他们各自为战,用户需要自己选择对应的模型并且在传统工具中进行复杂的剪辑工具;

最后是一些本质上是工作流的 Agent 产品,门槛变低了,但是内容制作的广度和多样性被牺牲了,普通用户只能等待产品更新模板或者工作流,而且工作流的更新非常消耗人力。

Medeo 的选择是:构建一套专门为视频 Agent 创作的语言Gensystem,主要由三部分构成:

首先是 Medeo DSL:一套专门用来对视频内容和制作方法进行表述的“视频制作语言”可以将用户的模糊自然语言指令转换为模型可以理解的视频编辑操作。

然后是 Context System:由工具集、视频制作方式等信息构建的上下文系统,每次对话都可以从用户的指令和需求中匹配更多的视频制作专业上下文。

最后是 Environment:这是一个可以支持用户与 AI 共同行动、控制编辑的视频剪辑界面,我们前面说的混合编辑就是这个东西。

我前几天说过,我写Medeo提示词有两个原则:

尽可能的简洁,少写一些具体的需求
尽可能的通用,让提示词能支持更多的能力和更多的场景

但是,这两个能促使我去实现这两种写法的,其实对于模型本身和整个Agent的系统有足够高的要求。

这个系统必须能够自己补充上下文,同时自己有一定的智能,无论是在图像设计上的智能,还是在视频剪辑以及视频构建上的智能。

所以一个系统是否能支持这两种写法和原则,可以一定程度上判断这个系统的上下文管理能力、上下文获取能力以及智能程度。
214