OrangeAI的个人主页

即刻App年轻人的同好社区

下载

App内打开

OrangeAI

420关注15k被关注10夸夸

CEO @marswave
ListenHub.AI

置顶

OrangeAI

14天前

时光飞逝，这一眨眼，竟创业一周年了。

冬

2024年12月4日，北京初冬，marswave 火星电波正式成立。
一直到三个月会后，那个冬天正式结束。
我都不曾看到一片雪花。

太慢了。
我跟 Kris 说，
我们应该在情人节上线一个情感电台，在这里每个人可以跟 AI 讲述他们的爱情故事，我们把他们的故事24小时地广播出去。

但是，我们做不出那个电台。
公司成立一个月了，我们的总人数还是三个人。
没有人，没有钱，没有速度。

等等，你们不是融了100万美金吗？
然而那时候，我们对创投这个行业的理解约等于零。
在2025年1月，在和银行、代理反复确认之后，我们不得不面对一个残酷的事实。
我们发现，一家新公司在2025年初办完所有融资的手续，需要至少4个月。
运气好的话，我们可以在5月可以用上投资人的钱。
但是从1月到 5月的这几个月，将是我们最煎熬的一段时间。

我可以接受不发工资，因为我没有任何贷款。
但是我没办法这样要求我的同事们，因为他们有账单需要还。
整个 Q1 的预算...不能超过30万。

这是我们渡过难关的唯一方法。

全文：
mp.weixin.qq.com

37 01

OrangeAI

11:05

AK 写了一篇播客回顾 2025 年的 AI 发展，它评价 nano banana 是 2025 年最具革命性的模型。
它的意义不止是个卓越的绘图模型，而是一种以图像为媒介的沟通方式。
🍌是图像版的 LLM。
未来还会有的视频版的 LLM。它会是什么？
🍅🥔🌶🍋？

AK 原文的翻译：
Google Gemini Nano Banana 是 2025 年最令人惊叹、具有范式转移意义的模型之一。

在我的世界观里，大语言模型（LLM）是继 20 世纪 70、80 年代个人电脑之后的又一个重大计算范式。因此，基于本质上相似的逻辑，我们将会见证类似的创新浪潮：
我们将看到个人计算的重生、看到微控制器的等价物（认知核心）、看到互联网的进化（智能体网络）等等。

特别是在用户界面与体验（UI/UX）方面，目前与 LLM 的“对话”模式，其实有点像 80 年代向计算机控制台输入命令行。
文本虽然是计算机（以及 LLM）最原始、最偏好的数据表现形式，但它并不是人类偏好的格式，尤其是在输入端。
事实上，人类并不喜欢阅读长篇累牍的文字——这既缓慢又费神。
相反，人类天生喜欢以视觉和空间的方式来摄取信息，这也是为什么传统计算领域会发明图形用户界面（GUI）。

同理，LLM 也应当以我们偏好的方式与我们交流
通过图像、信息图、幻灯片、白板、动画/视频以及 Web 应用等。
这种趋势的早期雏形当然就是表情符号（emoji）和 Markdown，它们通过标题、加粗、列表和表格等方式对文本进行“装饰”和排版，使其更易于阅读。

但究竟谁能真正构建出 LLM 时代的 GUI？
在这种视角下，Nano Banana 为我们展示了这种未来形态的初步端倪。
更重要的一点是，这种能力的显著之处不在于单纯的图像生成，而在于模型权重中将文本生成、图像生成和世界知识深度交织在一起所产生的“共生能力”。

英文原文地址：karpathy.bearblog.dev

期待明年的 labnana.com 能成为 nano banana 模型的最佳载体。

8 01

OrangeAI

08:55

投资界脱口秀
每一句都是大实话

10 00

OrangeAI

2天前

2025 年末，我在阳朔出差的时候，收到了知乎科技的年度盘点邀请。在我坐飞机从桂林回北京的时候，对着窗外的云层，我拿起 iPad 把我的2025年的创业故事记录了下来。

这一年过得太惊心动魄了。前三个季度，我们被传统世界的“慢”拖得几乎窒息，融资流程的繁琐、团队协作的内耗，让我一度看不到希望。后来我们决定孤注一掷，彻底拥抱 AI Native。

以前觉得不可能的事，现在变成了日常。用 AI Coding 让全员全栈，5分钟上线 Nano Banana 2 的新功能……当速度提上来的时候，焦虑反而消失了。

在知乎的「AI 中场时刻」里，我看到了子羽歌的万字长文。他说 AI 眼镜正在成为新的器官。从 Ray-Ban Meta 到国内的雷鸟、魅族，AI 找到了最好的容器。甚至豆包手机的出现，让系统级 Agent 开始接管我们的生活。软件变硬了，体验变实了。

我也看到了许华哲 Harry 对具身智能的回望。他提到的那个焦虑让我感同身受：我们是不是太忙着做量产、做应用，而错过了通用智能那个最大的“西瓜”？

中美在机器人赛道上的分野，软件在 Vibe Coding 下的狂奔，硬件在眼镜和手机上的博弈……这就是 2025 年的众生相。

大家都在这场风暴里，有人迷茫，有人狂奔，但都在用力地活着。

如果你也身处这个行业，或者对 AI 的未来感到好奇，推荐去知乎搜一下「AI 中场时刻」。那里没有宏大叙事的公关稿，只有我们这些从业者最真实的2025年。

19 23

OrangeAI

2天前

小绿书在数据上已经赢了小红书
在别人笑我用朋友圈的风格发公众号的时候
我就知道会这样了

19 60

OrangeAI

2天前

播客里肖弘问刘元：如何保持少年感和好奇心？
刘元说，生命的动力，可能每个人都不一样。
对于他而言，在这么些年对他影响最大的一句话是兰亭集势的郭去疾所讲的故事。

有一次吃饭，郭聊到他的一位家人得了癌症，生活已经享受不了任何快乐，任何美食。
家人很痛苦，但还是很努力地想活下去。
他就思考，人为什么这么痛苦，享受不了任何人间美好的时候还这么强烈的想活下去。
他说，其实无非就想看看自己的孙子长大是什么样子。
于是得到了一个很抽象的结论：
信息是生命的动力。
去新的餐厅吃饭，去新的城市旅游，去读新的书看新的电影。
这些都是信息。

刘元听完这个故事之后，意识到人真正想要生活下去，有强烈的生活动力的根本原因，
其实是好奇心。
在意识到这点之后。
他生活里的所有选择，都是以满足好奇心为导向了。

42 28

OrangeAI

3天前

Veo3 和 Sora2 发布之后，AI 视频模型的发展趋势已经非常清晰，就是是音视频融合。
今天，国内的终于跟上节奏，火山引擎正式发布了Seedance 1.5 pro。
它采用了业界领先的音视频联合生成方案。
它在音画同步、方言演绎、运镜控制和叙事表达上展现了惊人的潜力。
这个视频我做的一组相声和方言的实测。

除了人声，环境音效（SFX）与画面的同步率也非常重要，可以简化以前复杂的 AI 音效工作流。特别是在游戏场景、电影特效场景等有高频音效需求的场景里。
这个模型不仅懂画面声音，还懂专业的摄影术语，在运镜上表现得更加专业，连续性更好。
人物表演方面也更加细腻真实。
这是几个测试示例，实测抽卡成功率 50%。

Seedance 1.5 pro 在技术上和前代模型的本质区别在于它不再把声音看作视频的附属品。

通过 MMDiT 原生架构和针对音视频联合场景的 RLHF 训练，它解决了以往 AI 视频“画质虽好但无神、无声、无镜头感”的痛点，特别是在中文方言和专业摄影控制上形成了差异化竞争优势。

一些架构设计特点：

1. 基于 MMDiT（Multi-modal Diffusion Transformer）架构。它采用双分支（Dual-branch）设计，内部集成了一个跨模态联合模块（Cross-modal joint module）。这使得视觉和听觉流在生成过程中就能进行深度交互，确保了极高的时间同步性和语义一致性。

2. 引入音频反馈的 RLHF。在 SFT 之上，专门针对音视频上下文开发了强化学习（RLHF）算法。它使用多维奖励模型来评估视频质量、美学表现以及音频保真度。

3. 推理流水线。它的推理链条包括：用户提示词 -> 提示词工程 -> 文本编码器 -> 联合生成模型(DiT) -> 视频/音频细化器(Refiner) -> 输出。

4. 评估标准：升级了评测基准，不仅看画质，还专门增加了“视频生动性”维度（分为动作和镜头两个子维度）以及四个音频维度（指令遵循、音质、音画同步、音频表现力）。

完整技术报告地址：arxiv.org

Seedance 1.5 pro 是 AI 视频生成从“默片时代”迈向“有声电影时代”的重要一步。它在音画同步、方言演绎、运镜控制和叙事表达上展现了惊人的潜力。虽然目前在部分方言支持（如东北话、上海话）和复杂场景的稳定性（抽卡成功率约 50%）上仍有提升空间，但它已经能够辅助创作者完成短剧、广告 demo 甚至电影分镜的制作。

体验入口：

目前 Seedance 1.5 Pro 已正式上线，可以在这几个地方玩到：
即梦 AI ：网页端选择“视频生成” -> 模型选择视频 3.5 Pro。
豆包 App：对话框输入“照片动起来” -> 上传照片 -> 选择 1.5 Pro 模型（内测中）。
开发者 API：下周，Seedance 1.5 Pro 模型 API 将在火山引擎 (Volcano Engine) 开放调用。现在可到火山方舟体验中心体验模型效果，也可预约模型服务。

exp.volcengine.com

00:25

12 05

OrangeAI

3天前

今年夏天我跟朋友说你们要做个
《总统爱上白宫做保洁的我》
结果竟然还获奖了...

34 55

OrangeAI

4天前

智谱和 MMX 都确定港股上市了
好像上市也没那么难吧
成立四五年就可以
还可以插队
这世界只要你优秀
规则也可以为你更改

34 24

OrangeAI

4天前

今年是 Agent 十年中的第一年
年初有 Manus 的惊鸿一瞥
年末有 Medeo 的惊喜收官
昨晚有些激动，我的朋友们，都太厉害了

什么都不说了，发个邀请码吧
200人可用，手慢无
FAT6MMKJSB9XD5I89AXP74C1

39 50

OrangeAI

4天前

2025年，我们做的的最后一个新功能今天正式上线了
全球首个对话语音克隆系统
在闲聊之中，克隆你最真实的声音
无限次免费体验，声音不像不要钱。

什么是对话声音克隆呢？
先来看看视频演示吧
也可以直接免费体验
listenhub.ai

录个音而已，为什么要整这么麻烦？

以前的语音克隆方式，都是让你念一段话。
那个声音是冷冰冰的，没有任何情感。
它不是在自然说话，而是在机械读稿。
那个声音，根本就不是你。

在帮用户克隆声音的这几个月里，我们每天就在想：
为什么录音这种看似简单的事情，大家都做不好呢？
为什么大家对着稿子念的时候，就不会正常说话了呢？
我们后来发现，人们只有在和朋友闲聊的时候，才能使用自己真实自然的声音。

于是，在 10 月的时候，我做了一个大胆的决定：
我们要做一个对话声音克隆系统，帮助每个人找回自己最真实的声音。

这无异于为了一瓶醋包了一顿饺子...

但我们知道，声音太重要了。
声音是 ListenHub 的差异化，也是每一位创作者独特的IP属性。
不管是播客、FlowSpeech 还是解说视频，真实自然的声音都是表达最重要的基石。
经过2个月的开发、测试、内测，经过了上百位用户的真实体验和反馈，经过了三次线上的迭代...
今天，我们终于可以骄傲地宣布，全球首个「对话式语音克隆系统」正式上线！

而且为了帮助每个人都能找到自己真实的声音。
此功能可以无限次尝试，完全免费体验。
在你找到那个完美的声音之前，都不需要考虑付费。

祝你在这里能找回突然的真我！

00:34

23 47