即刻App年轻人的同好社区
下载
App内打开
Kenny_肯尼
453关注2k被关注2夸夸
剪映&Capcut PM
内容创作者和观察者
探索AI带来的革命性创作工具
Kenny_肯尼
1天前
过去一年半做了多个AI项目,有简单有复杂的,有面向超大规模的小白用户,也有面向垂类人群,其中prompt是非常核心的要素,也是大家在做项目时绕不开的逻辑。在此总结了做prompt方案设计的经验和教训

核心结论:

GenAI带来应用新范式,支持通过prompt生成优质的个性化结果,但大众用户不想打开键盘,也不知道填什么prompt,所以需要在保证最终效果的前提下,尽可能通过低成本的表达方式来获得用户的意图。

对话式交互是未来,但目前还无法取代传统图形化交互。

1. 交互:不要让prompt变成操作阻力

- 非必要,勿填prompt,让用户多填一个字,都是对用户规模和转化率的巨大折损;

- 如果有prompt的效果更好,那么把prompt做成选填,让专业用户有选择,又不影响小白用户的使用路径;或者首次不填,快速预览结果,后续深度使用再填

- 如果必须填,尽可能填用户不需要额外思考的,否则用户一思考,数据就掉

- 通过推荐词降低输入门槛,并保证对prompt的响应,避免拔高用户预期后但结果又不符预期

2. 信息:通过算法、或信息授权方式来获取用户意图和context背景信息,而不一定要手动输入

3. 流程:把prompt填写留在最后一步,让用户先完成简单的熟悉的操作,增加沉没成本

4. 生态:少数偏专业用户的prompt,沉淀在端内成为模板流转,服务更广大小白用户一键套用和二创。对工具产品来说,飞轮逻辑可能比漏斗逻辑更重要,因为效果比效率更重要。要站在整个平台,整个大生态去思考,从更长周期看对用户的价值,对平台的增长和商业化的价值

提示:

- 我是在一个已有的大体量的移动互联网产品中融入AI能力,用户的习惯、预期,以及业务指标护栏都会对新方案的设计做限制

- 以上交互案例是表象,数据也是表象,仅供参考,不一定能复用到其他产品

- 最重要的是,你的用户是谁,他们的需求是什么,你的产品当前处于什么领域、什么阶段,如何更好的满足他们的需求
010
Kenny_肯尼
1天前
文生图的RAG,通过索引公开的图像信息,解决模型的图像生成幻觉,会继续拓展几个应用场景:

1. 做meme表情包,尤其在美国大选,twitter上大量的特朗普,马斯克表情包。

2. 资讯类知识类解说素材库,原来是去找网图拼接,现在直接基于脚本文案生成

3. 影视综二创,比如甄嬛传吃豆角

至于文生图的传统场景,不会太受到影响,AI写真,商品图,模特图,非常依赖私有资产,还得靠lora、IP保持这些算法能力

体验完百度世界2024上的iRAG,我觉得AI绘图也可以没有幻觉了。

01
Kenny_肯尼
6天前
来发一个招人帖啦,2025届校招生,图像工具方向,会涉及到AI应用和出海,希望有用户sense,有灵气,以及在意用户体验的同学,欢迎扫码投递,也求帮忙转发~
47
Kenny_肯尼
8天前
iOS 18.1 的键盘支持了自定义emoji能力,可能会带来新的创作玩法和工具红利,虽然没有朋友圈的live带来的红利大。

在iMessage里导入图片,自动抠像,转为emoji,类似微信的添加自定义表情包,但是iOS的厉害之处在于系统级应用,你除了在iMessage里发给朋友,还可以通过键盘在备忘录输入,或者直接在苹果相册里添加贴纸。

接下来如果ins、醒图、美图等创作类APP都支持iOS键盘的emoji输入,就可以出来很多新玩法了,不是单纯的发送自定义emoji,而是emoji作为个性化元素,跟其他的做素材做组合包装。

列举一下emoji相关的玩法

1. iOS 18.2 支持AI生成emoji,之前以为只能在imessage里玩,跟中国人就没啥关系,但现在有了键盘入口,就可以全局玩起来

2. Google的emoji kitchen支持把两个emoji融合为一个,但是缺乏社交场景和系统应用,没有真正火起来

3. 小红书非常火的emoji实况图,把自己人脸p到emoji里面

4. Emoji来P图,ins、美图、醒图、剪映capcut、TT发布器都有贴纸库供用户使用
25
Kenny_肯尼
9天前
11月2日Pixverse上线的毒液变装特效,结合毒液电影和万圣节的热点,立即抖音热榜Top 4,由此看出Pixverse通过学习Pika的捏捏爆款特效之路,也终于出圈了一把。

视频大模型可能会分化出两条应用路线,一个是runway、海螺,走专业影视,追求模型能力的上限,另一条是Pika、Pixverse,走UGC玩法,模型能力相对弱,但更好玩更抽象。

对毒液的热点演变历史追踪如下:

早在21年,就有毒液的变身爆款「一定要有光才让你兴奋吗」,是拍一段握手素材,跟电影里毒液的握手素材拼接,形成无缝转场,21年爆了

22年同样的毒液握手素材换了一个bgm,再爆一次

24年还是同样的毒液握手素材,五六月因为预告片火了一次,10月电影上映再爆。

上述的爆款,都依赖用户专门拍一个握手动作的视频,所以没有形成太大范围的ugc爆款。

10月31日,周杨青发了一个AI毒液变身视频,17万赞,虽然是偏专业的人制作的,效果很高级,但从中其实可以看到更低门槛的AI玩法的机会

10月29日,Pixverse更新了V3模型,说实话效果跟其他DiT都有差距,塑料感还是挺强的,但是支持了特效、风格的能力,类似Pika的视频lora能力。11月2日上线毒液变装特效,然后立即在国内抖音火了,用户无论导入什么样的素材,都可以变身毒液,门槛大大降低。

我在luma和可灵试了同个prompt 「The man transforms into a Venom」,效果不大行,可能还是要依赖lora能力。所以毒液、捏捏跟之前的AI拥抱不一样,不是底模+prompt可以直接实现,给他们做效果首发带来了一个月左右的时间保护期
00:08
07
Kenny_肯尼
11天前
尚雯婕在bilibili超级科学晚,通过现场哼唱,然后AI创作为有歌词的歌曲,让人感慨,专业的人有AI会更厉害。

有点像尚雯婕有个创作助理,让她的灵感和瞬间想法,可以快速出个demo,而不依赖一个团队或者她自己花很多时间才能做出一首能听的歌。

她的才华不应该仅仅限于那么几首歌曲,而是覆盖到更多的场景,有更多好听的应景的歌

【翁荔×尚雯婕 | 人工智能】AI的安全与“培养”之道_哔哩哔哩_bilibili

02
Kenny_肯尼
11天前
看到有人通过AI翻译和音色克隆,制作海外播客的中文版原声,虽然还是听起来有不自然的地方,但已经很不错了,而且这方面模型可以打磨到以假乱真的程度。

海外播客生态和质量远高于国内,但语言障碍是很大的门槛,而AI可以解决了,期待有一键式的产品解决方案

【中文版Lex fridman播客】Cursor团队:AI 时代的编程未来

跨国串门儿计划

33
Kenny_肯尼
11天前
Runway的3D运镜 camera control,让视频生成的可控性再提升一个台阶。反映出视频生成大模型作为想象力的虚拟摄像机,已经在物理逻辑上接近真实拍摄的运镜逻辑。

此次更新分为两块,一方面是交互层面优化,从原来死板的多个维度的参数设置,变成更符合直觉的鼠标拖拽来控制运镜角度,另一方面是底层模型能力进步,之前基于老一代unet架构,运动幅度有限,且容易崩坏,做出来的效果就是动态PPT,实际用处不大,但是现在基于DiT架构,全方面的提升,真的可用了。

运镜的可控性一直是视频生成的痛点,早在4月份LTX studio就有非常惊艳的解决方案,把一张图转为3D空间,然后选择起始点和结束点,进行运镜生成,猜测是通过高斯泼溅的方式实现,交互非常有创意且符合直觉,但是模型能力不行,实际效果很拉胯。

这也是目前AI产品在找PMF的典型错误,产品在交互层跑在模型太前面,实际交付的方案看似像那么回事,但实际上手是没法用的,我过去一年多也犯了几次这样的错误。

关于3D,是一个公认的重要方向,但难度也很大,不同赛道的模型能力都在试图解决这个问题。我也不是做这块的,所以以下是非专业的信息陈列:

Midjourney 9月份的officehour透露,他们正在开发一个 3D 系统,让你能进入 Midjourney 图像。不是多边形polygons,,不是 NeRF,也不是高斯。而是一种新的类似 NeRF 的格式。可能未来图像生成和视频生成的边界会打破,都是单镜头素材生成。

Wonder dynamics也支持将实时视频画面转化为 3D 场景,包含所有摄像机设置、角色身体和面部动画,以及完全可编辑的元素

Tripo等一系列产品,甚至luma的前身,都在做文生3D数字资产,不过还没做得很成熟,因为对应的3D数据集不够。

李飞飞提出的具身智能,要实现AGI,必须要理解真实世界的环境,Sora最开始讲的故事,也是世界模拟器,虽然实际上DiT架构并没有真正解决物理逻辑错误的问题。

3D是必须啃下的骨头,就看各种技术路线和应用方案,谁先跑出来。
00:10
29
Kenny_肯尼
13天前
Suno新上了叫Personas的能力,可以让你保存一首歌曲的核心元素(人声、风格、氛围)并用于后续的创作,有点类似图片生成的IP保持。

图片生成的模型能力、开放生态和产品应用都做的最成熟,所以视频、音乐的生成应该都会参考同样的方式演进,比如Pika的捏捏特效和可灵的主体一致性都是依赖视频lora,Suno的音色、风格保持也是类似的逻辑。

现在的AI发展趋势是,从单一模态向多模态,每个模态又分为底模+lora+算法插件+prompt等多维度的元素ABC x abc组合,带来极为丰富的乘数效应,可以演化为万千世界,最终可能又会融合为统一架构的理解和生成大模型。
00:36
55
Kenny_肯尼
13天前
关于字节新出的炉米Lumi,可能不是对标Liblib和Civitai的独立AI模型社区,而是字节系C端产品的AI玩法的供给源。

国内会训lora和会搭workflow的可能就几万人,通过产品和运营手段可以泛化一部分,但整体看单独的AI模型社区的想象力是有限的,用户太少,门槛高,太专业,所以liblib的生意模式,大厂不一定会以竞争视角去做。

而这批专业创作者的lora、workflow,是非常好的创意供给,经过包装后,可以让B端和C端低门槛的用起来,同时这批作者又因为应用层普通用户的大规模使用,可以获得激励收入。

一个内容社区能否循环自运转起来,关键是供给和消费的商业化路径是否跑通,否则靠爱发电是不可持续的,收入太低也不长久。

所以我觉得炉米和liblib的目标不一样,其实不是竞争对手。liblib应该会一方面把业务做深,形成更强的社区壁垒,另一方面做出海,以中国擅长的运营打法和产品应用,去抢海外市场,去干佛系的civitai

字节,悄咪咪做了个 Liblib

179