即刻App年轻人的同好社区
下载
App内打开
Kenny_肯尼
454关注2k被关注3夸夸
剪映&Capcut PM
内容创作者和观察者
探索AI带来的革命性创作工具
Kenny_肯尼
00:28
DeepSeek推理模型上线,甚至把思考过程都直接放出来,相比它最终给出的规整结论,思考过程的文字,体现它更像一个有经过较好逻辑训练的和知识面的人在喃喃自语,而非一个冷冰冰的机器,非常推荐体验

DeepSeek 推理模型预览版上线,解密 o1 推理过程

12
Kenny_肯尼
3天前
首发就是红利,是心智,是用户增长。而首发的机会可能是硬件,操作系统,微信抖音生态,新模型能力带来的,所以不要埋头苦干,多关注市场

我终于把我新买的iPhone16 Pro,接入了国产AI,实现AI自由。

41
Kenny_肯尼
7天前
今天在ins上刷到「做猫真的好难」宠物对口型视频,27w赞,外国人评论「虽然听不懂中文,但是好可爱啊」

对口型其实是10月国内的大爆款,背后是字节自研的loopy模型,做的时候就有预期会出爆款,但是没想到中文歌传到海外,也能火,从中获得的几个learning:

1. 可爱和反差,是全球各地人民群众喜闻乐见,无法抵御的,可以跨越文化和语言的障碍

2. 新模型loopy首发 + 宠物博主的可爱猫猫形象 + 洗脑的可爱神曲 = 爆款,这是几种新老元素的跨界叠加带来的化学反应,而不是单纯的工具引爆

3. 新能力首发带来的红利,可以突破平台的障碍,进入抖音、视频号、快手、小红书、ins、tiktok、shorts

4. 国内和海外的热点发酵时间差在缩小,国内做的功能,通过内容在海外也会火,所以哪怕产品不出海,也要关注海外市场
00:12
39
Kenny_肯尼
7天前
大厂内部很多 AI 项目在赛马,虽然造成资源浪费,但想到一个好处,分散老板的控制力。

因为大老板对产品的控制欲太强,但他们又距离一线太远,经常会干扰产品的正常迭代。

而赛马机制让一些创新产品可以躲避老板的目光,得以猥琐发育,真正的面向用户做产品,而非面向汇报做产品。

当然如果是两匹头马一起赛,大家都盯着,可能也做不好,或者做的很痛苦。
106
Kenny_肯尼
7天前
我们现在畅想的和尝试规划的 AI 未来,可能不一定是对的,未来是演变,而非计划出来。

就像 19 世纪 60 年代的发明家坚信,交通工具的下一步变革是通过人形蒸汽机来拉动马车,于是机械蒸汽侠诞生了。
23
Kenny_肯尼
8天前
vidu 的多主体一致性,从需求上是刚需,比如输入一个模特,一件衣服,一个杯子,就可以生成模特拿着杯子穿着连衣裙在散步的视频,比传统的图生视频在效率和可控性要高太多,但目前还不成熟,甚至是不大可用。

你们实际上手会发现,对参考图的要求比较高,稍微复杂就不行,并且生成画面容易崩坏,也没那么像,所以非常依赖抽卡。可能在 c 端玩法可以搞搞抽象,在营销场景生产力环境是不可用的。

其实这套参考能力其实在图片生成已经实现,甚至广泛应用,但视频领域还比较难,关键在于目前的视频生成底层模型还不大行,不过 Vidu 作为开拓者,依然值得尊敬🫡

把Runway、Luma们一锅端了!这款视频模型上“杀手级”功能:一致性魔咒终于打破

22
Kenny_肯尼
8天前
豆包的「一句话 P 图」其实是个不实用的功能,如果想正经干活,这种发散的对话式交互会放大 seededit 的可控性、稳定性和精准度问题,让你抓狂。

但是这种交互满足了普通大众对于 AI 的科幻片梦想,跟 AI 说一句话,它还真的给我干活了,所以有公关效应,并且用于做做梗图 meme 这类好玩有趣又不严肃的场景,其实也够用了

“动动嘴”就能编辑图像,豆包悄咪咪上线了这个超实用的新功能。

93
Kenny_肯尼
10天前
过去一年半做了多个AI项目,有简单有复杂的,有面向超大规模的小白用户,也有面向垂类人群,其中prompt是非常核心的要素,也是大家在做项目时绕不开的逻辑。在此总结了做prompt方案设计的经验和教训

核心结论:

GenAI带来应用新范式,支持通过prompt生成优质的个性化结果,但大众用户不想打开键盘,也不知道填什么prompt,所以需要在保证最终效果的前提下,尽可能通过低成本的表达方式来获得用户的意图。

对话式交互是未来,但目前还无法取代传统图形化交互。

1. 交互:不要让prompt变成操作阻力

- 非必要,勿填prompt,让用户多填一个字,都是对用户规模和转化率的巨大折损;

- 如果有prompt的效果更好,那么把prompt做成选填,让专业用户有选择,又不影响小白用户的使用路径;或者首次不填,快速预览结果,后续深度使用再填

- 如果必须填,尽可能填用户不需要额外思考的,否则用户一思考,数据就掉

- 通过推荐词降低输入门槛,并保证对prompt的响应,避免拔高用户预期后但结果又不符预期

2. 信息:通过算法、或信息授权方式来获取用户意图和context背景信息,而不一定要手动输入

3. 流程:把prompt填写留在最后一步,让用户先完成简单的熟悉的操作,增加沉没成本

4. 生态:少数偏专业用户的prompt,沉淀在端内成为模板流转,服务更广大小白用户一键套用和二创。对工具产品来说,飞轮逻辑可能比漏斗逻辑更重要,因为效果比效率更重要。要站在整个平台,整个大生态去思考,从更长周期看对用户的价值,对平台的增长和商业化的价值

提示:

- 我是在一个已有的大体量的移动互联网产品中融入AI能力,用户的习惯、预期,以及业务指标护栏都会对新方案的设计做限制

- 以上交互案例是表象,数据也是表象,仅供参考,不一定能复用到其他产品

- 最重要的是,你的用户是谁,他们的需求是什么,你的产品当前处于什么领域、什么阶段,如何更好的满足他们的需求
220
Kenny_肯尼
10天前
文生图的RAG,通过索引公开的图像信息,解决模型的图像生成幻觉,会继续拓展几个应用场景:

1. 做meme表情包,尤其在美国大选,twitter上大量的特朗普,马斯克表情包。

2. 资讯类知识类解说素材库,原来是去找网图拼接,现在直接基于脚本文案生成

3. 影视综二创,比如甄嬛传吃豆角

至于文生图的传统场景,不会太受到影响,AI写真,商品图,模特图,非常依赖私有资产,还得靠lora、IP保持这些算法能力

体验完百度世界2024上的iRAG,我觉得AI绘图也可以没有幻觉了。

01
Kenny_肯尼
14天前
来发一个招人帖啦,2025届校招生,图像工具方向,会涉及到AI应用和出海,希望有用户sense,有灵气,以及在意用户体验的同学,欢迎扫码投递,也求帮忙转发~
47