即刻App年轻人的同好社区
下载
App内打开
歸藏
561关注24k被关注48夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
09:46
GPT-5.1 Codex Max 模型 API 上线了,Cursor 等编程工具已经接入
00
歸藏
09:28
谷歌上线了由 Gemini 3 驱动的 Deep Think 模式

直接把 ARC 2 拉到了 45.1 分,HLE 干到了 41 分,提升太离谱了

目前 Ultra 用户可以用,点击左侧 Deep Think 后右侧选择思考
01
歸藏
1天前
🍌Nano Banana Pro Prompt:将照片放入复古诺基亚手机中。

灵感来自原推,我这个会直接转换照片人像,同时增加复古 UI 增加真实感,灵感来自(X:kingofdairyque)

---------------------------------

指令:基于附带的照片,将图像显示在复古手机的屏幕界面内,并进行特定的风格变换。

画面描述:这是一张抓拍的、略微倾斜的复古诺基亚手机特写(经典直板造型,例如 6610 或类似的早期彩屏机型),手机在画面中随意地呈对角线放置。低分辨率的发光 LCD 屏幕占据了构图的主导地位,填满了大部分视野。周围坚固的塑料外壳和物理 T9 键盘/导航键的顶部区域仅部分可见,并在画面边缘被裁剪掉。

屏幕内容:像素化的屏幕上显示着一个实时的“相机预览”界面:

照片内容: 附带照片中的人物经过转换,身穿明显的千禧年 Y2K 流行时装(例如闪亮的金属面料、天鹅绒运动装、水钻细节或层叠网眼织物)。整个场景呈现出浓重的早期拍照手机美学:明显的像素网格(纱窗效应)、有限且略微褪色的调色板,以及块状的压缩伪影。

复古 UI 叠加: 覆盖在照片视图之上的是低像素、单色的诺基亚用户界面元素。 屏幕顶部边缘:像素化的信号强度条(左)、“Camera”文字(中)、块状电池图标(右)。 屏幕底部角落:块状像素字体的软键(Soft-key)标签,左侧显示“Options”(选项),右侧显示“Back”(返回)。
氛围与光影:屏幕发出特有的绿蓝色 LCD 背光色调,微弱的光线投射在周围的塑料边框上。整体氛围怀旧、具有互动感,且呈现出真实的低保真(Lo-fi)科技感。
参数设置:

比例: 4:5 竖幅

相机视角: 复古手机屏幕微距特写,手持视角

屏幕模拟: 早期 CSTN TFT LCD 屏幕,可见像素颗粒,特有的绿色色偏
UI 元素: 复古低分辨率单色像素图标和块状文字覆盖
内容变换: 将人物服装替换为 Y2K 千禧年流行风格
调色风格: 低饱和度冷色调,数字噪点,颜色抖动伪影,屏幕荧光
14
歸藏
2天前
我写Nano Banana Pro提示词的两个原则:

1. 尽可能的简洁,节省token,少写不必要的内容,尤其是JSON格式这类又臭又长的

2. 尽可能地支持更多的场景和能力,让模型自行判断需要适应的场景和对应的内容

核心就是给模型放权,让模型自己判断,发挥模型的创造力。
74
歸藏
2天前
关于 Open AI 代号 Garlic(大蒜🧄)的新模型, Chris 说不会在近期推出

他们下周会发布一个模型但不是大蒜,大蒜预计会在明年上半年推出

多家媒体称,Garlic OpenAI 内部基准测试中,在代码生成和复杂推理任务上,成绩优于 Google Gemini 3 Anthropic Opus 4.5。

而且还继承并修复了此前一个名为 “Shallotpeat” 项目在预训练阶段暴露的结构性问题,使得在较小架构中注入更多“知识密度”成为可能,从而降低算力成本的同时维持或提升性能。
01
歸藏
2天前
谷歌发布了 Google Workspace Studio Agent 构建工具

支持无代码构建Agent,提供了大量模板。

支持跨应用编排,数据可以在谷歌应用和其他第三方应用之间流转。

主要是帮助企业将复杂的内部流程自动化。这块很像之前飞书的应用模式。
01:24
08
歸藏
2天前
明年真是个大年,主要的几个头部的AI公司都准备IPO。

之前OpenAI说要准备IPO,国内的智谱和Minimax也在做准备。

现在 Anthropic 也跟进了,目前正在跟与投行的沟通。

同时正在进行的私募轮可能将Anthropic估值推至3000亿美元+。

CEO 说,ARR 有望在明年升至260亿美元,客户数有30万+企业。
01
歸藏
2天前
可灵发布 2.6 视频模型,支持音画同出

在声音层面的能力基本拉齐 Veo 3,无论是正常的对话、唇形同步还是唱歌、Rap 以及最基本的环境音都可以搞定
00:43
25
歸藏
2天前
Nano Banana Pro 提示词

很多人去过同一个景点,但你的体验是独一无二的。把地标装进瓶子里。

下方依旧有地点相关的文字介绍,你可以改成你自己的感想。

当然游戏玩家也可以将你在游戏奋战过的地标建筑放进去,比如我这里的光环和魔兽奥格瑞玛。

提示词:

海报设计、自媒体封面设计:查找 [在此处输入地点名称 经纬度坐标] 的标志性景观或建筑,并获取该地点在特定时间的天气状况。 画面的主体是一个极其精致、透亮且带有厚度感的玻璃罐子(类似于圆顶玻璃罩、标本罐或复古水晶球),稳稳地放置在一个干净、柔和的平面上。玻璃罐子内部,封存着该地点代表性景观的Q版微缩模型。模型材质呈现出高级的软润感(类似软陶或磨砂树脂),色彩治愈。在罐内景观的上方,悬浮着对应天气的微缩模型(例如:Q版棉花糖般的云朵、发光的小太阳、或几滴晶莹的雨滴)。 风格为梦工厂动画风格,3D建模,光线极为柔和梦幻。强调玻璃材质的真实感,光线透过玻璃罐产生漂亮的折射、反光和焦散效果,让内部的景物显得更加珍贵。采用强烈的移轴摄影镜头效果,焦点清晰地集中在玻璃罐内的微缩景观上,罐子外部和背景完全虚化模糊。 画面周围大面积留白,保持干净高级感。画面底部居中位置,使用无衬线体小字清晰标注:位置信息(地点名称及具体的经纬度)、天气图标及温度、时间,以及一段关于这个旅行地点的精简中文介绍文案(侧重于描述记忆或氛围)。高品质画面输出,细节丰富惊人。
310
歸藏
3天前
可灵昨晚发布了 O1:一个大一统的视频、图像生成和编辑工具,支持你能想到所有图像和视频编辑能力。

藏师傅会对这次新增的一些能力进行测试,同时大概教大家一下这个模式应该如何使用

完成的提示词和内容可以看长文→:mp.weixin.qq.com

总结一下这次更新内容:

1. 统一多模态视频大模型,把参考生视频、文生视频、首尾帧、内容增删与风格重绘等任务融合,一站式完成从生成到修改。
2. 支持图片、视频、主体与文字的多模态输入,直接用自然语言进行精细编辑,无需遮罩或关键帧。
3. 通过多视角主体与参考素材,保持角色、道具、场景的特征稳定与镜头间一致性,确保连贯画面。
4. 自由组合参考与指令,覆盖运镜、动作、镜头延展等复杂玩法。
5. 可生成约 3–10 秒 的自由叙事镜头,灵活控制节奏与镜头长度。

进到可灵页面,你就会注意到左侧新增了一个非常显眼的图标,用了这个后面那几个界面你基本就用不着了。

进来以后就会发现下方的提示词输入框位置集成了非常多的选项。

下方用来切换视频和图片生成的基础操作,比如时间比例等,上方的几个胶囊按钮主要用来控制输入内容的类型。

图片主体参考这里他就会出现、视频、图片、主体三个输入项,当然你可以删除图片或者主体,只用文本操作。

首尾帧这个输入项就会变成首帧和尾帧,这个我们就熟悉了,不过提示词也需要对首尾帧进行标注。

我们先来看一下最基本的通过文本进行视频编辑。

只需要上传需要编辑的视频,在提示词输入框输入提示词的时候在指代素材那里@ 对应的素材就行。

服饰的质感还是非常不错的,跟周围环境融合的也很好,窗台的阳光照在衣服上的高光也有。

嘴型和运动都可以迁移,所以可以将 O1 当做数字人模型使用。

文本的修改搞完之后就是,图片参考

如果你不知道想要修改的环境或者角色具体怎么描述的话,当然可以上传图片让他参考,支持单图也支持多图。

可以看到为了配合这种遗迹环境的结果,他还帮我把面部和身体的亮度变暗了,后面的角色也在运动都没啥问题。

关于图像参考这里有个技巧

第一次通过一张图片对视频进行修改后,再次将修改后的图片让他修改,这样可以最大程度确保对于视频编辑的控制力度。

比如这里,先是让他在我桌面上增加了最近比较火的疯狂动物城的朱迪,然后在用刚才生成的视频让他向视频中增加可灵 O1 的文字。

你可能好奇上面素材部分的主体是什么东西:

这是这次 O1 新增的一个元素,简单来说就可以理解为你创建的角色,常用角色创建后可以直接选择,不需要频繁上传了。

点击添加主体的图标右侧就会出现主体的选择弹窗,官方内置了很多常见的主体类似可以选择。

点击左侧“我的主体”去创建主体,它可以上传多个不同角度的图片,更大程度的提高角色、道具、场景在视频生成中的一致性。

如果要创作专业内容的话,建议还是多创建角色和场景的主体,一致性表现比单张图片要更好。

这里选择了将我自己改为林黛玉这个主体,同时还加上了天使之翼这个道具

但是视频的融合度非常好,翅膀也会跟这个我的身体运动,光照的部分也没啥大问题,真实感很高。

主体对于电商来说绝对是非常大的利好。

再也不用担心视频一运镜商品就跟原来的不像了,现在上传四张图片创建一个主体,随便怎么转都行。

当然,O1 也可以直接转变视频的风格,我试了一下毛毡风格、动漫风格、8-bit 像素风格都没啥问题,你直接跟他说将 XXX 视频转换为 XXX 视频风格就行。

以前那些做起来成本很高非常复杂的风格转换特效,现在非常简单的一句提示词就可以了。

O 1 依然是支持首尾帧生成视频

点击输入框上方“首尾帧”来获取素材上传 UI,视频编辑加上首尾帧能做出非常离谱的特效效果。

比如这里就是先通过图像参考的视频编辑将手里的鼠标换成了代码组成的龙。

然后再将视频最后一帧和代码龙的图片做了首尾帧视频生成,搞定了一个非常大场景的转换。

说完了视频我们来看一下 O1 图片。

输入框左下角切换为图片就可以使用,支持上传多张图片以及加入对应的主体,和对图片进行编辑。

搞一下最近很火的跟朱迪合影,这个其实相对复杂点,涉及到场景一致性、而且人物和动画角色风格不太一样。

好了这就是今天测评加 O1 简单教学的所有内容了。

从图片的发展来看,视频的推理能力&世界知识以及编辑能力一定是迈向产品和 C 端落地的两个必要能力,很高兴可灵能够在国内几家里面第一个踏出这一步。

目前肯定是无法跟图片的发展比的,无论是成本还是效果,但是回想一下今年三四月的图像编辑模型,再看依稀短短半年的发展成果,只要起步了进展就会很快了。
33