刘道全的个人主页

即刻App年轻人的同好社区

下载

刘道全

25关注74被关注0夸夸

始智AI wisemodel创始人
兼清华校友总会AI大数据专委会副秘书长

刘道全

2天前

过去一周，智谱 GLM 先后开源了多模态模型家族：从「眼睛看得见」的视觉理解模型 GLM‑4.6V，到「手能动起来」的 AutoGLM，再到「语音听得懂」的 GLM‑ASR，与「话能说出口」的 GLM‑TTS。

GLM 团队希望让大模型逐步拥有人的世界知识、记忆能力、复杂推理能力，以及拥有多模态处理能力，最终实现 AGI。在一周内，智谱 GLM 开源了覆盖视觉理解、设备操作、语音的多模态模型，从文本扩展到多模态，不断探寻智能边界。

在多模态开源周的收官之日，智谱 GLM 再开源四项面向视频生成的核心技术成果：SCAIL、RealVideo、Kaleido 与 SSVAE。它们对准当前视频生成领域的三大难点：精细化可控生成、复杂时空结构建模，以及大规模训练成本控制。

SCAIL：影视级角色动画生成框架，实现 SOTA 姿态控制；

RealVideo：实时流式视频生成系统，仅 2-3 秒首响延迟；

Kaleido：多主体视频生成框架，一致性开源 SOTA；

SSVAE：频谱结构化变分自编码器 VAE，3 倍收敛加速。

智谱 GLM 希望通过开源这四项底层技术，为繁荣的视频生成技术社区、产品社区，提供一些工程方案与理论研究，方便社区直接复现与二次开发。已上线始智AI-wisemodel开源社区，欢迎体验。

1 00

刘道全

13天前

提到 AI 的突破，人们首先想到的往往是大语言模型（LLM）：写代码、生成文本、甚至推理多模态内容，几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上，这些强大的模型却频频失手。电网调度、用户建模、通信日志…… 现实世界中大量关键系统的核心数据都以表格形式存在。然而，无论是直接微调 LLM，还是采用专门为表格设计的深度架构（如 TabNet、SAINT、FT-Transformer），其性能在多数真实场景下仍难以超越 XGBoost、CatBoost 等传统梯度提升方法。

这引出一个尖锐的问题：为什么在非结构化数据上所向披靡的现代深度学习，在结构化数据建模中却长期陷入瓶颈？

直指这个核心问题，清华大学崔鹏团队做出了他们的回应 ——LimiX。不同于其他模型只能进行一种下游任务，LimiX-2M 在同时支持分类、回归、缺失值插补等任务的前提下，以仅有 2M 的模型参数超越了包括 XGBoost、CatBoost 在内的经典模型，并在与 AutoGluon 和 TabPFN 的对比中展示出显著优势，仅次于 LimiX 前期发布的 LimiX-16M。

LimiX 的开源使中国在表格建模领域的研究真正站到了世界的最前沿，力压 Amazon AWS，Inria 等一系列顶尖机构在诸多性能测试上登顶！仅仅 2M 的模型体量使得快速微调和工程适配成为可能，为各领域研究和工业应用提供了无限可能。LimiX-2M已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

0 00

刘道全

18天前

你肯定见过大模型在解题时「装模作样」地输出：「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。但一个灵魂拷问始终存在：这些词真的代表模型在「思考」，还是仅仅为了「表演」更像人类而添加的语言装饰？是模型的「顿悟时刻」，还是纯粹的「烟雾弹」？

来自中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院（UCL）和大连理工大学的联合研究团队，在最新论文中首次利用信息论这把「手术刀」，精准解剖了大模型内部的推理动态，给出了令人信服的答案：当这些「思考词」出现的瞬间，模型大脑（隐空间）中关于正确答案的信息量，会突然飙升数倍！

这绝非偶然装饰，而是真正的「信息高峰」与「决策拐点」！更酷的是，基于这一发现，研究者提出了无需额外训练就能显著提升模型推理性能的简单方法，代码已开源已上线始智AI-wisemodel开源社区，欢迎使用。

0 00

刘道全

22天前

AI 任务越来越复杂，硬件也越来越多样，现在大家都急需一种智能系统，不用手动调试，就能直接生成高性能 GPU 内核。不管是运行顶尖大语言模型的超大规模数据中心，还是学术研究用的高性能计算集群，软件和硬件得高效配合才能落地，这种需求就更迫切了。

虽然现在大语言模型在代码生成上挺厉害，但要写出能正确运行、还高效的 GPU 代码，依然是个大难题。而 AI 辅助开发 GPU 内核（尤其是针对 AMD Instinct™ MI300X 这类新型硬件），能大大提升开发效率，加快部署速度。

AMD 推出了 GEAK（生成高效 AI 中心 GPU 内核），一款专门针对 AMD Instinct™ GPU 的自动 Triton 内核生成智能体框架。它把最先进的大语言模型和结构化推理、反馈循环结合起来，就是要把 AI 辅助代码生成的能力再提一个档次。

同时还发布了两个评估基准：一个是 TritonBench 修订版（从 TritonBench-G 改编而来，包含 184 个内核，测试工具更严格），另一个是全新的 ROCm Triton 基准（从 AMD 开源 ROCm 仓库挑选 30 个真实场景内核），用来测试 AI 生成内核的正确性和运行性能。

实际测试结果很亮眼：GEAK 比直接用大语言模型生成代码强太多 ——TritonBench 修订版上正确生成率高达 54.89%，ROCm Triton 基准上更是达到 63.33%，而直接提示大语言模型不做智能体反馈的话，正确率还不到 15%。另外，GEAK 生成的内核在 TritonBench 修订版上，比原来的参考版本平均快 2.59 倍。还对 ROCm Triton 基准中的一个高性能内核做了详细研究，并且已经开源了 GEAK 智能体和评估框架。

目前，GEAK-agent已开源上线始智AI-wisemodel开源社区，8月底举办的AMD AI 速训营24小时 GPU黑客松的一个赛题就是基于GEAK-Agent设计的，几十个团队已经在参赛时深度体验和尝试，欢迎更多感兴趣的朋友前往体验和尝试。

0 00

刘道全

1月前

11月11日，百度文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式开源。本模型仅3B激活参数，媲美顶级大模型性能！ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型，在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力，在理科与文科综合推理、通用视觉推理等任务中表现优异，展现出更强的跨模态推理与问题解决能力。同时，结合空间定位与工具调用，该模型推出“图像思考”等创新功能，为多模态思维与交互应用带来更丰富的可能。ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源，允许商业使用。模型已上线始智AI-wisemodel开源社区，欢迎体验。

0 00

刘道全

1月前

大模型驱动的语义表示时代，文本嵌入模型（Text Embedding Models）已成为检索、STS、分类、排序等各类NLP下游任务的核心基石。然而，主流嵌入模型普遍依赖大规模数据或合成数据，很少系统性探索训练技巧与数据质量的协同优化。

结果就是，并且由于模型体积庞大，部署成本高昂，其泛化能力和可复现性不太理想。

此外，多数业界领先的嵌入模型来源于头部公司，其专有数据、封闭代码和商业限制为学术界和开发者社区带来了巨大的挑战，使得高效、可复现的研究难以进行。

为此，KaLM-Embedding团队推出了KaLM-Embedding-V2系列模型，一个以高质量数据+精湛训练技巧为核心打造的紧凑通用嵌入解决方案。它不仅性能强悍，更以0.5B参数的“小体型”挑战甚至超越多个7B~9B级模型！与同参数量规模的Qwen3-Embedding-0.6B以及bge-m3相比，KaLM-Embedding-V2系列展现出来显著的性能优势。

最重要的是，KaLM-Embedding不仅仅是一系列单点模型，而是一个面向学术界的全面开源贡献：

完整的数据配方和全开源的数据：让研究者能直接从training-ready的数据集着手；

卓越的训练技术：让研究者快速构建媲美工业级的检索器模型。

开放的商业授权：明确开放模型的商用权限，旨在推动RAG基础设施的普及；

完整的训练与推理代码：降低复现与扩展的门槛，以及下游任务适配难度；

KaLM-Embedding团队望借此推动通用文本嵌入技术的开放：让任何研究者、开发者乃至企业团队，都能自由使用、改进与扩展这一嵌入框架；让高质量的语义理解能力不再只属于超大规模模型与封闭系统，而能通过开放数据与透明训练，被更广泛地共享、验证与创新。模型已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

2 00

刘道全

3月前

上海人工智能实验室正式向全球开源其新一代多模态大模型——书生·万象InternVL 3.5。本次开源的模型实现了从单纯感知理解到实体交互能力的重大跨越，标志着多模态人工智能进入了新的发展阶段。
该模型通过创新的训练架构和算法突破，在通用多模态感知、复杂情境推理和文本理解等核心能力方面均展现出卓越性能。其旗舰模型在多学科综合推理评估中表现突出，位列全球开源模型领先地位。
更值得关注的是，新一代模型在多项特色能力上取得显著进展：
具备先进的图形用户界面理解与操作能力，支持跨平台自动化任务执行
在具身空间感知方面展现出色表现，为智能体导航与交互提供强大支撑
在矢量图形理解与生成任务中实现突破性进展
这些突破使InternVL 3.5不再是传统意义上的"观察者"，而是能够真正理解环境、进行实体交互的智能体。该模型可自主完成文件管理、文档处理等日常办公任务，还能为机器人提供强大的视觉感知与决策能力，在智能制造、智能办公等领域展现出广阔应用前景。目前已上线始智AI-wisemodel开源社区-应用空间，欢迎大家进行体验。
wisemodel.cn

模型地址
wisemodel.cn

0 00

刘道全

3月前

伪装物体分割(COS)任务面临的一项关键挑战在于标注数据极为稀缺，这主要是由于伪装物体与背景之间的边界高度复杂，导致精细的像素级标注过程既耗时又成本高昂。针对“是否能够在完全无需人工标注的情况下，以零样本（zero-shot）方式有效实现伪装物体分割？”
电子科大&Space42针对伪装物体分割（COS）任务中标注数据稀缺、标注成本高的问题，提出了一种零样本条件下的解决方案CAMF，该方法创新性地结合了显著物体分割（SOS）数据集的全局语义表征能力与具备局部注意力机制的主干网络，通过MFA融合多模态大语言模型生成的文本语义信息，实现了对伪装物体全局结构与局部细节的协同感知。
实验表明，CAMF在零样本与全监督设置下均表现出优越性能，能够有效识别多目标场景及细小物体，本工作为零样本分割提供了高效可扩展的方案，适用于医学影像、环境监测等标注稀缺场景，未来工作可扩展至其他密集预测任务，利用更大规模数据优化码本，并平衡计算效率与分割精度。CAMF已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址
wisemodel.cn

0 00

刘道全

3月前

DeepMind交互式世界模型的重大更新Genie 3，实现了交互式实时长序列生成，让世界模型备受关注，然而Genie 3并没有开源。
昆仑万维「Matrix-Game 2.0」同样实现了通用场景下的交互式实时长序列生成的世界模型，并且全面开源。它在实时生成和长序列能力上实现了质的飞跃。2.0版本更加侧重低延迟、高帧率的长序列交互性能，能够以25 FPS的速度，在多种复杂场景中稳定生成连续视频内容，且生成时长可扩展至分钟级，大幅提升了连贯性与实用性。
在推理速度显著提升的同时，模型依然保持了对物理规律与场景语义的精准理解，支持用户通过简单指令，自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。
这使得「Matrix-Game 2.0」不仅打破了内容生成与交互之间的壁垒，也为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能，为构建通用虚拟世界提供了强有力的技术基座。目前Matrix-Game 2.0已上线始智AI-wisemodel开源社区，欢迎体验。

模型地址
wisemodel.cn

0 00

刘道全

3月前

最强开源深度研究模型MiroMind ODR（Open Deep Research）来了。首先，它做到了性能最强，GAIA测试结果更是达到了82.4分，超过了一众开源闭源模型，其中包括Manus、OpenAI的DeepResearch。其次，它是真的全开源、可复现，它的核心模型、数据、训练流程、AI Infra、DR Agent框架统统开源。

尤其是MiroThinker，其专为深度研究与复杂、长期问题解决设计。它基于Qwen3构建，具备任务分解、多跳推理、检索增强生成、代码执行、网页浏览和文件处理等多种能力。MiroThinker v0.1提供8B、14B和32B参数规模的SFT（Supervised Fine-Tuning）和DPO（Direct Preference Optimization）变体，在GAIA基准测试中表现出色，能够满足广泛的实际应用场景需求。目前已上线始智AI-wisemodel开源社区，欢迎体验。

模型地址
wisemodel.cn

1 00