即刻App年轻人的同好社区
下载
App内打开
Tzuens
225关注415被关注1夸夸
贴地飞行
wzjtzuens
置顶
Tzuens
9月前
未来10年人工智能产业下三个预测

1. 3年左右,出现下一个平台级的AI产品,由语音驱动,且支持多语言、方言、小语种。
现阶段打字和大模型交互效率、普适性都太差。

2. 下一个类短视频的全民泛娱乐产业机会,一定是基于real-time AIGC的内容平台,所有互动反馈和内容生产都是毫秒级别的,每个人接收的内容和反馈也完全不一样,区别于现有的任何一种娱乐形态,高频率、强互动、类游戏化是其特点。

3. 机器人和人工智能融合产业,会替代相当部分工人、服务业者,一开始是替代清洁工巡逻型扫地机器人,后面是替代月嫂和保姆的家庭型机器人,先进工厂逐步实现0工人。社会层面兴起的关于变革生产关系的大讨论。尾段开始试点新兴城市模型,粮食供销补给完全自动化,开始有部分人,不工作就能很好的活着。
02
Tzuens
2月前
“如果在几个月之前,我们没有关闭比特币交易所、打击ICO融资;如果今天还像年初一样,全球80%以上的比特币交易、ICO融资都发生在中国,那么今天会是一个什么样的景象?真是有点后怕。”
——2017年12月2日,中国人民银行副行长潘功胜在“第一财经·摩根大通年度金融书籍品鉴会”上指出。
11
Tzuens
3月前
- Tim 在新华社下午发布的专访里透露了影视飓风今年营收破亿,利润破千万。2 年前,年营收千万,团队不到百人,2 年后,影视飓风员工数扩张近 1 倍(124 人),营收扩大了 4~10 倍。

- Tim 对影视飓风之所以高人效的逻辑,概括得非常准确:“人才密度,对内容的深度理解,商业层面影响力扩增”。是前两者造就了后者,影视飓风、飓多多和 Tim 本人的 IP 是前店,高效运转的内容制作中台是后厂。

- 影视飓风创造了一种类似分众传媒的“内容制作+渠道”的独特生态位。如果对标传统 4A 广告公司,龙头省广去年营收 166 亿,小的像早几年被因赛集团以 2.35 亿收购的创意热店天与空,收购前 1 年,1.79 亿营收,净利润 2273 万。他们提供的服务、内容制作压力比影视飓风要小得多得多,品牌传播效果却不赖,影视飓风就显得吃力不讨好。因赛集团在深交所创业板上市,年营收在 5 亿上下波动,从增长潜力上,影视飓风已经具备冲击创业板的潜力,从业务复杂度和结构上,远远不能和因赛、天与空,更别说省广比较。

- 最大的问题还是 Tim 这个符号和影视飓风绑太深了,想靠近无人格化的传媒公司,却像极了东方甄选。

- 只从媒体账号的角度看,营收是很惊人的。主营收 TVC 制作和合作商单,每年超过 100 个合作商单,TVC 制作在某种程度还拖累了内部商单制作效率。慢慢有部分甲方意识到影视飓风本身就是个具备宣发能力的 IP,把 TVC 和商单有机混合,比如今年直接把游戏《三国:谋定天下》的宣发和 TVC 制作过程做成了一期视频。

- 和传统 4A 广告公司对比,业绩肯定不算亮眼,业务模式重,毛利低,组织架构复杂,设备和人员成本过高都是问题,杭州一家小影视制作团队的利润率都可以高于影视飓风,但话又说回来,内容创意也是很重要的一环。

- 传统4A 除了代理和数字业务,对渠道的理解很深,甲方愿意付出高溢价给乙方管理预算。一个中型消费品客户的年框(大于 1 2 年)费用就能轻松达到上亿规模。分配到制作部分被省广、WPP 这样的巨头 agency 在竞价比稿中灵活“吃掉”,而传统 4A 自己不掌握流量渠道,却可以决定利润如何分配到整个营销链条中。

- 在过去的叙事逻辑里,制作公司属于丙方,负责更下游的内容制作,只能吃巨头的剩菜,偏偏影视制作这一环成本是除开渠道外最高的。影视飓风属于结合两者优势的公司,很像分众这样有很强渠道属性、同时兼具内容制作能力的代理商,具体到渠道资源就是:B站的这批年轻人。

- 年轻人付费能力差,但年轻人在互联网上声势浩大。

- 从产出创意→帮助客户植入商业内容→依靠自有 IP 获取线上流量→出圈传播→形成广告效果,完成有效闭环,而且广告效果是可追踪的,反过来对比日益萎缩的户外广告,影视飓风属于甲方友好型渠道。

- 潘天鸿在 3 年前经历过几近倒闭的绝望,疫情期间无法开工,而账上钱即将消耗完,通过 B 站直播带货救活了公司,置之死地而后生,几件事可以看出他有很强的韧性和魄力,但同样,一些细节也在反复强调,他还只是个活在焦虑中的年轻人。

-- 22 9 月,影视飓风阔别两年重新在抖音上线视频,在当时就被炒作为,这是在背刺老大哥 B 站,B站 失去了独家内容优势。活下去、给甲方好好交代观众画像比背刺不背刺重要。

-- 24 年中,影视飓风的一系列服饰周边开始在抖音直播带货,Tim 本人也直接在抖音直播间出镜,难得的是,这批周边服饰在抖音还有专门的针对货架电商的流量投放预算。

-- 24 10 月,“平台砍画质”这期视频又把 Tim 推上“背刺老大哥”的风口浪尖。首先,Tim 知不知道 B 站背后存在昂贵的带宽成本、生存压力问题?答案是一定的,影视飓风官网提供免费直链下载原素材,每年都有高昂的 CDN 成本,不过因为几次服务器攻击,已经换成百度网盘的企业下载方案。同样是企业经营,逻辑是类似的。第二,为什么 Tim 还要对 B 站开炮?很多人不知道 B 站其实单独给了“影视飓风”这个账号开了高码率绿车,这个特权是其他账号享受不到的,但越过线的部分实在难以接受:老视频低码率化+新视频的画质锐化。前者是直接降低了旧商单的内容可读性,低播放量的说辞,还能可以理解。后者就非常严重了,给甲方的内容,在审稿和面向用户时变成两个东西,以内容素质著称的影视飓风,在视觉表达上出现了不可控的部分,这已经是在直接挑战影视飓风赖以生存的商业模式:创意+高品质商单视频。动到饭碗了,表达愤怒是可以理解的。

-- 24 10 23 日晚上 11 点,影视飓风紧急发了一支针对 vivo X200 pro 的“拍摄照片有强眩光,但在测评中没有体现出来”回应视频。抛开事件本身,我只看到一个疲惫且恐惧的年轻人,本来可以只发一篇技术文章回应,而选择紧急视频回应,一个 8 28 秒的视频,道歉了 5 次,里面有将近 3 分钟内容都在反思和道歉,眼神空洞,无光。

- 实在太近了,因为离“画质论”视频实在太近了,恐惧随时袭来的负评,恐惧随时降低的商单价格,背后的 100 多位员工的生计、家庭,即将发布视频的其他品牌是否会受到影响。

- 倚仗潘天鸿,倚仗影视飓风这个 IP,这和俞敏洪排斥的东方甄选结构很像。

最后图片附上一个彩蛋,18 年,还在苦苦挣扎商业模式,但眼里还有英气,说话还很硬气的潘天鸿。
1340
Tzuens
3月前
Mini-Omni2 来了,项目进展神速。

这一次相较于v1支持视觉处理能力,增加了图像编码器,相关能力是基于 OpenAI 开源的 CLIP 模型扩展,可根据图像预测最相关的文本片段。

按照演示片段还支持实时的、流式视觉输入,多模态对话。

- Mini-Omni2:github.com
- Mini-Omni对比Moshi:m.okjike.com
01
Tzuens
3月前
11月
Browser as a Service
Chrome as a OS
00
Tzuens
3月前
明天是节后首个交易日,晚安。

1. 基本面没有变化。股市是经济的晴雨表,这句话已经说烂了。就业、社融、物价接下来会越来越艰难,近期的配套政策刺激大宗消费为主,源头没有解决。吹泡泡一定是建立在基本面有实际变化的基础上,大到CPI,小到企业财报,盲目入市,可能一朝返贫,踩踏会发生在11月基本数据发布前后。

2. 年中回撤起因是退金令,但不是只有散户能套牢。结合节前最后一个交易日主力的流出情况,可以认为是一种延续,洗盘还在继续。

3. 化债、资产重新定价、带动消费是三件不冲突的事。本轮行情是几重政策、汇率变化加情绪综合加持下的结果,纠结原因没有太大意义,政策这3年就没停过的。重点的是情绪到位了,这很重要。62%的美国成年人(约 1.62 亿美国人)拥有股票,老百姓半数以上的财富在 stock mutual fund 里,于我们而言,地产转金融作为下一个20年的新引擎是一种解法,过去40年摸着日本人过河,后40年保不齐要摸着美国人过河,泡沫并不是坏事,没泡沫才是。

4. 市场需要信心,但信心是相对的。4号的非农数据可以修正,说明接下来两边的博弈只会更剧烈,从情绪赚到的钱,很大概率也会因为反向情绪吐出去,均衡配置市场,给自己留足退路。这也是另外一道题:相信国运,定投____。

5. 散户担心一字下来还为时过早。社会面已经到底,底无可底,目的还能是割散户吗,问题是割得动吗?这个时期动储蓄只会适得其反。过去三年变差很大一部分原因是流动性外逃,现在是貂蝉色诱董太师,吕布什么时候挥方天画戟取决于流入变化和两边的对抗强度,流入是分阶段的,现在还没到演到凤仪亭,比起在恐慌和自信左右横跳,不加杠杆是最优解,持续观察缩量,避免被误杀。当然,牛市面前人人平等,人人都是巴菲特,真被套也很正常。

6. 最重要的一点,当前和过去任何时期都不一样,短视频、推送、热榜,情绪的传递可以以秒为单位波动出去,所以哪怕明天开盘就砸盘,也不要有任何意外。
03
Tzuens
4月前
雷锋网上月初一篇回顾Snap这批元老工程师的追忆文,第三段笑点很密集,摘一些笑料

1. 国内的 C 端产品一直在讲 PMF,但百度高雪认为这类讨论没必要,AI 应用就应该出海。“PMF 在国内失效,主要是因为没人付钱。但在海外,别人用你一个应用或一个功能,不给钱都不好意思,担心会把自己的数据偷走,所以商家必须收钱。”

2. PictureThis 就是一个例子。PictureThis 是一款用计算机视觉教人种花的 APP,一开始在国内甚至日本都推广不起来,后来跑去欧洲,一下子就火了,年收入接近 7000 万美金。

3. 真格投资诗云第一轮有一件趣事:原先真格负责这个项目的投资经理约了徐卓见面,结果在见徐卓的前一晚因为醉驾被抓失联了,没有按时赴约,所以诗云的第一轮领投从真格变成了红杉。

4. AI 应用出海要成功,有两个必备认知:一是要把收入做起来,因为“中国创业者在美国 VC 的眼里可能连印度人都不如”,除非有高收入;二是必须融入美国 VC 的圈子,否则公司做不大。

5. 而一旦美国 VC 进来,就必然与中国的 VC 有冲突。BenchMark HeyGen 时,就说中国股东的持股比例太高,要求老股东退股,领投时也不接受任何中国 VC 的钱一起投。最后红杉与真格都不同意,只接受有原则的减持,沈南鹏直接发话:“这么小的项目都让我退,其他那么多的项目我怎么办?”多方僵持许久,BenchMark 才同意减持的方案。

6. 所以在许多出海的 AI 应用中,中国 VC 往往只有种子轮与天使轮的机会。
13
Tzuens
4月前
What's Next Token?

是短信、日记、电子邮件、Slack/微信/钉钉消息、合同条目、署名、社媒评论、需求文档、注释、代码、大纲、PPT、设计文档、说明手册、产品说明书、个人简历、emoji

是会议记录、新闻标题、SEO标签、学术摘要、研究报告、小说、诗歌、歌词、音乐、视频帧、食谱、旅游攻略、财务报表、法律分析报告

是游戏地图、科研结论、天气预报、蛋白质结构、下一帧出现的怪物

是点击、滑动、长按、车轮转向、仰卧起坐、移动沙发和可乐

是一个包裹、一栋楼、一个软件、一道番茄炒蛋
00
Tzuens
4月前
《从扎克伯格的焦虑症聊Orion的诞生》

————

如果不算 Netflix,从 2012年 上市到 2014年 用20亿美元买下 Quest,这3年间,Facebook FANNG 里市值增量最大也最快的巨头,超过 110% 的增幅,但扎克伯格仍然是几个巨头里最焦虑的 CEO,依赖广告营收结构,免费游戏不再显灵,架在 iOS、安卓两个生态大户的脚手架上,都使得扎克伯格对「入口」的执念史无前例的大。以移动广告在 2013年 开始增长迅猛作为起点,账上热钱用于买计算入口成为必选项,现在看回来 20亿 在当时可能是满足扎克伯格焦虑症的安慰剂,但在当时对整个 Facebook 而言是最有价值的镇痛药。

……

2019年6月,扎克伯格只是透露酝酿中的 Libra币 项目,4个月后就得到国会山的亲切接见:命脉哪是捣鼓计算机的书呆子能碰的?扎克伯格的理由一贯荒唐:「微信和支付宝也做了」,扎克伯格的分析部门算不上称职,他们可能不清楚对岸曾经无限锚定法币、用户量上亿、甚至有配套「地下钱庄」的 Q币,2007年 要徒手接招「14家部委以及央行联合发起了针对虚拟货币交易行为的专项打击行动」

……

另外还搭配了支持肌电感应信号输入的神经智能腕带,这个配件其实早在今年2月扎克伯格就给媒体公布了这项神经智能腕带技术,故事回到 2019年底,彼时的 Facebook收购了一家名为 CTRL Labs 的纽约初创公司,这家公司从 2015 年起就一直在研究手指追踪腕带……

收购 Quest,囤卡,投资 AI 领域,收购 CTRL Labs,真正的焦虑症自愈者,冥冥之中,都是天助自助者。

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.

00
Tzuens
4月前
Moshi:github.com
Mini-Omni:github.com

九月截止当前,最重要的两个端到端(end2end)大语言模型(LLM)项目:Moshi 和 Mini-Omni,离追上 GPT-4o 的语音对话能力又近了一步。

- Moshi 是年中法国 Kyutai 实验室发布的模型demo,仅160 毫秒的理论延迟,在 L4 GPU 上的实际整体延迟低至 200 毫秒,项目终于开源。技术报告里的细节印证了部分为什么当时体验经常有莫名其妙打断用户对话的情况,下面会展开说明。

- Mini-Omni 月初异军突起的项目,比 moshi 早发布 2 个星期,在 Git 上收获 2.4k stars。moshi 一发布,就显得逊色许多,但项目第一作者 Xie Zhifei,仅是清华大学硕士一年级学生,这就非常离谱了……

- 2 个月前我在这篇(web-next.okjike.com)提到“真·首个开源”的端到端大语言模型 SpeechGPT,实验组只有 1 人。Mini-Omni 在提升输出体验情况下,还公布了一系列的训练方法、合成数据集,作者也仅仅 2 人,还是太卷了。

---- 以下是正文 ----

大语言模型(LLM)。
- Moshi 内置自研的 7B 的时间序列变换器(Temporal Transformer)模型,处理长序列的音频内容。这个模型的参数在不同的音素流之间是共享的,这意味着它能够处理多个音素流,如用户的语音输入和 Moshi 的回应输出。而 Moshi 本身就是支持全双工(full-duplex)的大语言模型,就是说用户的音频输入不会被模型的输出(即 Moshi 的回应)所影响。这里的仿真程度和人脑思考的链路基本一致,你在说话的时候,被动地接受其他人的输入其实逻辑上应该不会,也不能影响你的输出,甚至还要一边接受输入一边输出,比如一边写文章一边听歌,或者一边打游戏一边看视频。Moshi 还引入了小模型深度变换器(Depth Transformer)模型,没有说明参数量。这个模型可以理解为单独处理音频细节的,比如说话人的声音、情感、语调、重音以及背景噪音等声学特征。
- Mini-Omni 是 Qwen 的 0.5B 参数模型,智能程度相对有限。它的处理逻辑相当于把原本暴露出去的工程编码部分缝合在一起(其实 moshi 也是,MO 能讲的地方不多)。

音频编解码器。
- Moshi 内置了自研 Mimi 模块,这个独立模块能同时处理输入和输出音频流,转为模型可读的离散音素(speech tokens)。Mini-Omni 用 Whisper 编码器处理输入音频(并行处理文本标记(text token)),输入用损耗小的 SNAC 音乐级编码器处理输出。
- 输出速率上没有太明显差异,Mimi 使用了 8 个级别的向量量化(RVQ),每一帧(每 1/12.5 秒)生产一个由 8 个音素组成的序列,每秒 Mimi 处理 12.5 帧×8 音素/帧 = 100 个音素;SNAC 有 8 层码本,每秒处理数也大约是百个。

生成策略差异。
- Moshi 是多流的生成模型,能够同时处理用户和系统的语音流。在生成系统回应时,Moshi 首先在内部生成时间对齐的文本标记,这些文本标记作为语音回应的前缀,帮助模型更准确地理解和生成语言内容。这套系统称之为内部独白(Inner Monologue),模拟人在对话过程中“预备输出”的过程,也就是当我们在听某个人发言的时候,相应地会准备针对发言人的内容做出回应内容。独白能力是一种类人思考的仿真系统,但目前策略是不可调整,比如业务可能需要大语言模型能突然打断用户发言并输出新的内容。
- Mini-Omni 并行音频和文本的编码,通过文本指导音频输出。这是当前主流业务比较喜欢的文本和音频并行输出模式。

项目扩展。
- 架构上,相较于 Mini-Omni,Moshi 不算特别灵活。Mini-Omni 提出了一种方法“Any Model Can Talk”,通过三阶段训练:模态对齐-适应训练-多模态微调,对原始大语言模型进行最少的训练和修改,使其发展出自己的语音能力。具体是通过额外的适配器和预先训练的模型来扩展语音功能,并使用少量合成数据进行微调,可以在新模态中启用流式输出,同时保留原始模型的推理能力。更大参数的大语言模型扩展出音频流输入输出变成可能,那智能问题可能就不是问题了。另外针对现有数据集,混合代码和长文本过多的问题,Mini-Omni 开源了 VoiceAssistant-400K 数据集,其中包含超过 400,000 个由 GPT-4o 专门生成的条目,用于有监督微调(SFT)。
00
Tzuens
4月前
朱啸虎今年第三次公开表达“模型六小龙最好的结果是被大厂收购”。

也就在本周,罗永浩在交个朋友直播间口播 199 的大模型培训课,卖这个课的广告主是智谱。

我一方面认可朱的观点,某种程度是多赢的结局,创始团队开心,LP 也开心;一方面又希望六小龙在拿了这么多钱后,可以在市场寒冬做出点东西,证明除了硅谷外互联网创新仍然在中国。但看起来大部分创始人都把模型技术过渡当做宝,没有意识到拿着几十亿美元和人工智能到底能做出多大规模的事,至少到现在都还没有看到。

来提 10 个人工智能和产业落地的关键商业模式:

- 政企也是企。虽然每个地方都嚷嚷要勒紧腰带过日子,但过去一年体系内还是放出超过 800 个语言模型相关的招标公示(这还只是 LLM),国营经济占总体产值的四成,这么大的蛋糕一个胖子吃都得噎着,产业还要升级,这些都清清楚楚在 3 月的报告里。而且必须强调:这是真正意义上长期壁垒。LLM私有化部署只是开始,模型更新、硬件维护、定制化能力都能长期造血。Transform 八个作者,近一半都在做企业模型落地,六小龙有谁是下定决心走到底的?有人说巨型国企有千人自训练模型、珠三角某市小区都自炼模型,空间不大吧?那是想得太多做得太少,行业早期,谁参与定义行业标准,谁就有进牌桌的底气,金融、医疗、教育都可以适用不同的标准,有外资也能搞政务钉、政务微信,重要的背后的构架有没有纳入关键资方。但如果一直唯唯诺诺,最后结局又和过去 10 年一样,几个老云厂来回竞争,再把项目费用砍一刀放给乙丙丁方。这聊的只是政企,民企数字化改造空间更广大。用时间换空间,用价格换规模。

- 上一代互联网最重要的是广告模式,大模型时代也是。ChatGPT 刚出来的时候,曾经因为记忆问题被诟病,回答质量随着窗口输入长度增加而越来越差,到 2022 10 月,LangChain 框架横空出世,最初的检索增强功能在某种程度上可以被视为当前广泛应用的 RAG(检索增强生成)技术的前身或技术预研,这其实某种程度是整合型、规则化的 agent 雏形,且证明 agent 有成为比单一模型更强的最佳实践。回到题眼上,广告是上一代互联网(严格意义上是上两代)几乎最重要的商业模式,但 LLM 因为产品逻辑本就是直出文本原因,无法和上一代技术整齐划一的整合在一起,也就是 Native Ad LLM,但 agent 技术可以打破这层限制。广告中间件可以对回答结果做一轮广告植入,判断植入对回答结果的质量影响,进一步判断是否高转化画像,是否影响输出质量,是否植入外链。这些中间件完全能作为 Native Ad Agent 开放给成百上千的开发者,让他们获得进一步的收入,并能控制广告曝光量、质量和形式。虽然当前最大的问题是大模型产品连千万月活都没几个,广告曝光被压的稀碎。

- 不支持方言、小语种的音频输入输出,继续掉队。我在今年 4 月预测过这个方向,今天再次重提。国内豆包和文心一言是唯一支持广东话、上海话,还有诸如四川、山东、陕西、台湾、河南、河北、北京等等口音的助手类产品,这两个产品也是唯二破千万月活的助手类 LLM 产品。各位不妨可以去了解一下老人、小朋友和对话轮数、内容,与其他年龄段有什么区别。不要上来就抱怨字节不给你买渠道,多找找自己的产品到底做的是什么垃圾,去分析用户到底是怎么完成交互的、在什么场景交互的,发个 mooncake 不意味着你技术了得,反而 bad case 越来越多,是不回测用例?技术方向为用户真正的需求服务,而不是虚头巴脑的给渠道买量忽悠得团团转。

- 「小模型和传感器」组合是最被严重低估领域。模型厂商动不动就要做百亿、千亿参数规模的模型,从训练到推理到电费都是成本,而最后输出一个支持总结的工具和查问题的机器人,这想象力未免也太小了。模型想要走入寻常百姓家,得做小,做端侧模型。有人会说端侧模型都是手机厂自研,做封闭系统,没有渠道的大模型厂商赚不到 license 的钱。这陷入了端侧 = 智能手机/消费电子的词眼里。模型的终点是 infrastructure,等同电力一样走进人生活的基础设施,LLM团队一定要说服自己,只要是终端,就应该搭载大模型,从人型机器人到新能源车,从冰箱到电饭煲,都是数不完的场景,一手设计场景,一手强化可端侧搭载的多模态模型,语言是最有限的场景之一,视觉、听觉、甚至嗅觉和味觉,这些数不完的场景可以智能化,比如你今天想吃甜口咖喱,炒菜机器人通过传感器量化一道菜的甜口程度,进而学习你的口味。小模型通过对大模型的量化蒸馏剪枝获得,但一定会牺牲智能程度,目前国内小模型做的最好的是面壁智能,我很喜欢这家公司,希望他们日后能超过六小龙里的绝大部分玩家。

- 实时生成引擎生成介于游戏和电影的新型娱乐方式。这个也不多提了,我的即刻置顶有今年 4 月份预测的相关内容也提了。蔡浩宇新成立的公司和 DeepMind 8 月发布的 GameNGen 引擎都是相关方向,但目前看起来最快达到奇点的会是 Runway 这批同时做视频生成和世界模型的公司。

剩下 5 个模式再更新吧。
13