即刻App年轻人的同好社区
下载
App内打开
李惠子Huizi
1k关注3k被关注1夸夸
AI/科技投资人
前AI大模型投资人高管|AI硬件联创|CVC科技领域负责人
思考技术伦理的哲学家|知行合一 创造未来
一朵活力满满的奇葩
置顶
李惠子Huizi
3年前
美国AGI每天都在扔核弹,中国的AGI小米加步枪。
为了中国的AGI继续努力🏃振兴中华🇨🇳
01
李惠子Huizi
1天前
修了一小时家用打印机,决定下单买一台新的,便宜的才是最贵的😂
00
李惠子Huizi
2天前
解读嘉宾是开源推理框架 SGLang 核心开发者赵晨阳,他是 Infra 背景,目前已加入 SGLang 背后的商用创业公司 RadixArk AI。

晚点:RadixArk.AI 这次同时完成了 SGLang 压缩 token 信息对 V4 的推理 Day-0 适配和全参数 RL Day-0 适配。适配过程中,有哪些对 V4 变化的观察?
赵晨阳:DeepSeek 仍是 Infra 的巨鲸,每年他们发布都会为 infra 优化 “续命一年”。比如说去年的 MLA、DeepSeekMoE(DeepSeek 提出的一种 MoE 混合专家模型架构,最早用在 V2 中) 等,我们扎扎实实做了一年,才能在开源框架上跑得比较好。
V4 换了一套全新的混合注意力方案。推理侧,V4 的混合注意力、双压缩和 HashTop-K MoE,意味着前缀缓存、FlashMLA、投机解码这些链路都要重建。我们团队为接入前缀缓存和投机解码做了大量优化,拿出了 ShadowRadix、HiSparse CPU 扩展 KV,并完成了英伟达 Hopper、Blackwell、Grace Blackwell、AMD、NPU 的全平台适配。
RL 侧,1.6T MoE 全参数训练对系统要求很高。六种并行策略(DP、TP、SP、EP、PP、CP)的正确性、训练与推理的一致性、indexer replay、FP8/BF16 混合采样——任何一环出错,奖励曲线就起不来。

晚点:总结来说,你们觉得 V4 是一个怎样的成果?
赵晨阳:作为工程师,我惊叹于 DeepSeek 极强的工程能力。训练时把优化器换成 Muon(矩阵级别优化器 ,能对整个参数矩阵进行正交化处理),训练精度推进到 FP4,进一步压缩显存和带宽;推理时引入 DSA(DeepSeek 稀疏注意力)、DeepEP(DeepSeek 通信效率的底层基础设施库)、Mega MoE 这一整套 Infra。这里面的每一个名词,在工程上都是巨大挑战。这种系统级的耦合优化比单点创新更难,更体现一个团队的工程深度。

晚点:DeepSeek V3.2 preview V4,中间隔了 7 个多月,但不管是 Kimi、Qwen、GLM、MiniMax 还是 GPT、Claude,主流模型的版本号都切得越来越细,更新很密集。这背后反映了什么不同思路?
赵晨阳:OpenAI Anthropic 的版本号更像 “产品语言”:频繁更新是因为庞大的用户群需要持续感知模型进步。DeepSeek 版本号更像 “研究语言”,每次主版本更新都对应一次重大架构变化。
这种差异由组织结构和商业模式决定。前者要求研究与产品节奏高度咬合,后者则拥有更大的自由度集中力量办大事,但也要求每次出手都足够有分量。

详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实

https://mp.weixin.qq.com/s/GBaPrVWMGpV7Z6bVuEXhSA

00
李惠子Huizi
2天前
养生界到底科学吗😂默默把药盒的鱼油拿掉了
51
李惠子Huizi
2天前
DeepSeek 重新校准了中国AI大模型的估值锚。具备核心算法能力和国家级背书的企业将获得更高溢价。
同时,逼出了头部公司的商业化加速。基础模型层”军备竞赛”重启。
DeepSeek’s $7.35B funding round has reset the valuation anchor for China’s AI foundation model sector. Companies combining proprietary algorithmic moats with state-level endorsement will trade at structurally higher multiples.
Concurrently, the round has compressed the commercialization timeline for incumbent leaders, reigniting the capex and talent arms race at the foundation model layer.
00
李惠子Huizi
2天前
李惠子Huizi
3天前
The information:DeepSeek 拟融资超 70 亿美元,这家初创公司正筹划创收举措
据两位直接了解谈判情况的人士透露,billionaire、DeepSeek(深度求索)创始人兼首席执行官梁文锋正计划为这家初创公司的首次融资开出最大的一张支票。该公司目前希望此次融资能筹集高达 500 亿元人民币(约合 73.5 亿美元)。这将使其成为中国人工智能(AI)公司有史以来规模最大的一轮融资。
与此同时,参与谈判的两名人士表示,本轮融资促使这家中国 AI 实验室加快了其创收并实现商业化落地的计划。DeepSeek 最近还向部分投资者表示,计划加快模型发布的步伐,使节奏更接近行业常态。
其中一位人士表示,该公司的目标是在 6 月份发布其 V4 模型的更新版本——V4.1。
DeepSeek 上个月启动了首次融资,其预期估值也从早期超 100 亿美元的预期急剧攀升。包含筹集的资金在内,本轮融资最终可能使 DeepSeek 的估值超过 3500 亿元人民币(约合 515 亿美元)。
据其中一位人士透露,控制 DeepSeek 母公司(对冲基金幻方量化 High-Flyer Capital Management)的梁文锋,可能会在本轮融资中以个人名义投资高达 200 亿元人民币,占募集资金总额的 40%。中国国家人工智能产业投资基金预计将成为本轮融资的第二大投资者。
尽管估值迅速攀升,但与 DeepSeek 进行过谈判的投资者依然对该公司创造经常性收入以及加快模型发布速度的能力表达了担忧。DeepSeek 成立于 2023 年,最初是幻方量化旗下的 AI 部门,其声誉建立在一家以研究为重点的实验室之上,该实验室将模型开发置于商业化之前。
DeepSeek 正致力于将其技术转化为可以向客户收费的产品和服务。DeepSeek 的员工一直在向各行各业的企业推广其模型,希望能激发客户的兴趣。据两名知情人士透露,该公司还从字节跳动的产品开发团队以及其他中国科技公司招募了人员。
DeepSeek 的新模型 V4.1 将为企业用户配备更多工具,并更好地支持模型上下文协议(MCP,一种将 AI 模型与其他软件连接的标准)。据其中一位人士透露,DeepSeek 还计划让 V4.1 具备处理图像和音频的能力,不过它仍将只能生成文本。
DeepSeek 的融资轮次和商业化努力标志着该公司的重大转变。在业内被称为“技术理想主义者”的梁文锋,曾希望让 DeepSeek 免受商业压力的影响。中国 AI 行业的许多人将 DeepSeek 的成功归功于没有外部投资者,进而也没有将其技术商业化的压力。
但随着算力成本的上升和顶尖人才竞争的加剧,这种方法正变得越来越站不住脚。这家初创公司已经失去了一些明星研究员。作为 DeepSeek V3 模型的关键贡献者,Luo Fuli加入了中国智能手机制造商小米,负责领导其刚起步的 AI 部门。另一位在 DeepSeek 早期模型中发挥核心作用的研究员Guo Daya,最近也以高得多的薪酬水平加入了字节跳动。
通过筹集外部资金,DeepSeek 可以在算力上投入更多,并为员工支付更高的薪水。它还可能开始发行股票期权,以此来补充员工的薪酬方案。
梁文锋是一位曾就读于杭州浙江大学工程学专业的中国企业家,他于 2015 年联合创立了幻方量化,并将其打造成中国最大的量化对冲基金之一。根据中国企业数据库企查查的数据,他拥有 DeepSeek 89.5% 的股份。福布斯估计他的净资产为 115 亿美元,而彭博亿万富翁指数则显示他的个人财富为 167 亿美元。
目前尚不清楚 DeepSeek 是否有通过收取订阅费或出售广告来从其聊天机器人应用程序中获得收入的计划。尽管该应用在 2025 年初人气飙升,但它现在在中国面临着更多的竞争。根据追踪 AI 产品的中国网站 Aicpb.com 的数据,截至 4 月份,DeepSeek 应用程序的月活跃用户为 1.39 亿,落后于字节跳动的豆包(Doubao)以及阿里巴巴的通义千问(Qwen)和夸克(Quark)应用。
Aicpb.com 的数据显示,DeepSeek 的网站继续保持中国最受欢迎的 AI 网站地位,截至 2 月份的月访问量达到了 3.555 亿次。但这一数字与 ChatGPT Gemini 相比仍是微乎其微,后两者的访问量均达到了数十亿次。
00
李惠子Huizi
3天前
5 5 日,AI 基础设施初创公司 RadixArk 宣布完成 1 亿美元种子轮融资,投后估值 4 亿美元。无论金额、估值还是投资人阵容,这都是 2026 AI Infra 赛道中目前最重的一笔早期下注。

https://mp.weixin.qq.com/s/sTQb2ffdHCbt7gFZ9m3c7w

00
李惠子Huizi
3天前
俞浩是疯批版的雷军……
10