即刻App年轻人的同好社区
下载
App内打开
刘道全
25关注74被关注0夸夸
始智AI wisemodel创始人
兼清华校友总会AI大数据专委会副秘书长
刘道全
2天前
过去一周,智谱 GLM 先后开源了多模态模型家族:从「眼睛看得见」的视觉理解模型 GLM‑4.6V,到「手能动起来」的 AutoGLM,再到「语音听得懂」的 GLM‑ASR,与「话能说出口」的 GLM‑TTS。

GLM 团队希望让大模型逐步拥有人的世界知识、记忆能力、复杂推理能力,以及拥有多模态处理能力,最终实现 AGI。在一周内,智谱 GLM 开源了覆盖视觉理解、设备操作、语音的多模态模型,从文本扩展到多模态,不断探寻智能边界。

在多模态开源周的收官之日,智谱 GLM 再开源四项面向视频生成的核心技术成果:SCAIL、RealVideo、Kaleido SSVAE。它们对准当前视频生成领域的三大难点:精细化可控生成、复杂时空结构建模,以及大规模训练成本控制。

SCAIL:影视级角色动画生成框架,实现 SOTA 姿态控制;

RealVideo:实时流式视频生成系统,仅 2-3 秒首响延迟;

Kaleido:多主体视频生成框架,一致性开源 SOTA;

SSVAE:频谱结构化变分自编码器 VAE,3 倍收敛加速。

智谱 GLM 希望通过开源这四项底层技术,为繁荣的视频生成技术社区、产品社区,提供一些工程方案与理论研究,方便社区直接复现与二次开发。已上线始智AI-wisemodel开源社区,欢迎体验。
00
刘道全
13天前
提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、生成文本、甚至推理多模态内容,几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上,这些强大的模型却频频失手。电网调度、用户建模、通信日志…… 现实世界中大量关键系统的核心数据都以表格形式存在。然而,无论是直接微调 LLM,还是采用专门为表格设计的深度架构(如 TabNet、SAINT、FT-Transformer),其性能在多数真实场景下仍难以超越 XGBoost、CatBoost 等传统梯度提升方法。

这引出一个尖锐的问题:为什么在非结构化数据上所向披靡的现代深度学习,在结构化数据建模中却长期陷入瓶颈?

直指这个核心问题,清华大学崔鹏团队做出了他们的回应 ——LimiX。不同于其他模型只能进行一种下游任务,LimiX-2M 在同时支持分类、回归、缺失值插补等任务的前提下,以仅有 2M 的模型参数超越了包括 XGBoost、CatBoost 在内的经典模型,并在与 AutoGluon TabPFN 的对比中展示出显著优势,仅次于 LimiX 前期发布的 LimiX-16M。

LimiX 的开源使中国在表格建模领域的研究真正站到了世界的最前沿,力压 Amazon AWS,Inria 等一系列顶尖机构在诸多性能测试上登顶!仅仅 2M 的模型体量使得快速微调和工程适配成为可能,为各领域研究和工业应用提供了无限可能。LimiX-2M已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
00
刘道全
18天前
你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。但一个灵魂拷问始终存在:这些词真的代表模型在「思考」,还是仅仅为了「表演」更像人类而添加的语言装饰?是模型的「顿悟时刻」,还是纯粹的「烟雾弹」?

来自中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院(UCL)和大连理工大学的联合研究团队,在最新论文中首次利用信息论这把「手术刀」,精准解剖了大模型内部的推理动态,给出了令人信服的答案:当这些「思考词」出现的瞬间,模型大脑(隐空间)中关于正确答案的信息量,会突然飙升数倍!

这绝非偶然装饰,而是真正的「信息高峰」与「决策拐点」!更酷的是,基于这一发现,研究者提出了无需额外训练就能显著提升模型推理性能的简单方法,代码已开源已上线始智AI-wisemodel开源社区,欢迎使用。
00
刘道全
22天前
AI 任务越来越复杂,硬件也越来越多样,现在大家都急需一种智能系统,不用手动调试,就能直接生成高性能 GPU 内核。不管是运行顶尖大语言模型的超大规模数据中心,还是学术研究用的高性能计算集群,软件和硬件得高效配合才能落地,这种需求就更迫切了。

虽然现在大语言模型在代码生成上挺厉害,但要写出能正确运行、还高效的 GPU 代码,依然是个大难题。而 AI 辅助开发 GPU 内核(尤其是针对 AMD Instinct™ MI300X 这类新型硬件),能大大提升开发效率,加快部署速度。

AMD 推出了 GEAK(生成高效 AI 中心 GPU 内核),一款专门针对 AMD Instinct™ GPU 的自动 Triton 内核生成智能体框架。它把最先进的大语言模型和结构化推理、反馈循环结合起来,就是要把 AI 辅助代码生成的能力再提一个档次。

同时还发布了两个评估基准:一个是 TritonBench 修订版(从 TritonBench-G 改编而来,包含 184 个内核,测试工具更严格),另一个是全新的 ROCm Triton 基准(从 AMD 开源 ROCm 仓库挑选 30 个真实场景内核),用来测试 AI 生成内核的正确性和运行性能。

实际测试结果很亮眼:GEAK 比直接用大语言模型生成代码强太多 ——TritonBench 修订版上正确生成率高达 54.89%,ROCm Triton 基准上更是达到 63.33%,而直接提示大语言模型不做智能体反馈的话,正确率还不到 15%。另外,GEAK 生成的内核在 TritonBench 修订版上,比原来的参考版本平均快 2.59 倍。还对 ROCm Triton 基准中的一个高性能内核做了详细研究,并且已经开源了 GEAK 智能体和评估框架。

目前,GEAK-agent已开源上线始智AI-wisemodel开源社区,8月底举办的AMD AI 速训营24小时 GPU黑客松的一个赛题就是基于GEAK-Agent设计的,几十个团队已经在参赛时深度体验和尝试,欢迎更多感兴趣的朋友前往体验和尝试。
00
刘道全
1月前
11月11日,百度文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式开源。本模型仅3B激活参数,媲美顶级大模型性能!ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型,在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源,允许商业使用。模型已上线始智AI-wisemodel开源社区,欢迎体验。
00
刘道全
1月前
大模型驱动的语义表示时代,文本嵌入模型(Text Embedding Models)已成为检索、STS、分类、排序等各类NLP下游任务的核心基石。然而,主流嵌入模型普遍依赖大规模数据或合成数据,很少系统性探索训练技巧与数据质量的协同优化。

结果就是,并且由于模型体积庞大,部署成本高昂,其泛化能力和可复现性不太理想。

此外,多数业界领先的嵌入模型来源于头部公司,其专有数据、封闭代码和商业限制为学术界和开发者社区带来了巨大的挑战,使得高效、可复现的研究难以进行。

为此,KaLM-Embedding团队推出了KaLM-Embedding-V2系列模型,一个以高质量数据+精湛训练技巧为核心打造的紧凑通用嵌入解决方案。它不仅性能强悍,更以0.5B参数的“小体型”挑战甚至超越多个7B~9B级模型!与同参数量规模的Qwen3-Embedding-0.6B以及bge-m3相比,KaLM-Embedding-V2系列展现出来显著的性能优势。

最重要的是,KaLM-Embedding不仅仅是一系列单点模型,而是一个面向学术界的全面开源贡献:

完整的数据配方和全开源的数据:让研究者能直接从training-ready的数据集着手;

卓越的训练技术:让研究者快速构建媲美工业级的检索器模型。

开放的商业授权:明确开放模型的商用权限,旨在推动RAG基础设施的普及;

完整的训练与推理代码:降低复现与扩展的门槛,以及下游任务适配难度;

KaLM-Embedding团队望借此推动通用文本嵌入技术的开放:让任何研究者、开发者乃至企业团队,都能自由使用、改进与扩展这一嵌入框架;让高质量的语义理解能力不再只属于超大规模模型与封闭系统,而能通过开放数据与透明训练,被更广泛地共享、验证与创新。模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
00
刘道全
3月前
上海人工智能实验室正式向全球开源其新一代多模态大模型——书生·万象InternVL 3.5。本次开源的模型实现了从单纯感知理解到实体交互能力的重大跨越,标志着多模态人工智能进入了新的发展阶段。
该模型通过创新的训练架构和算法突破,在通用多模态感知、复杂情境推理和文本理解等核心能力方面均展现出卓越性能。其旗舰模型在多学科综合推理评估中表现突出,位列全球开源模型领先地位。
更值得关注的是,新一代模型在多项特色能力上取得显著进展:
具备先进的图形用户界面理解与操作能力,支持跨平台自动化任务执行
在具身空间感知方面展现出色表现,为智能体导航与交互提供强大支撑
在矢量图形理解与生成任务中实现突破性进展
这些突破使InternVL 3.5不再是传统意义上的"观察者",而是能够真正理解环境、进行实体交互的智能体。该模型可自主完成文件管理、文档处理等日常办公任务,还能为机器人提供强大的视觉感知与决策能力,在智能制造、智能办公等领域展现出广阔应用前景。目前已上线始智AI-wisemodel开源社区-应用空间,欢迎大家进行体验。
wisemodel.cn

模型地址
wisemodel.cn
00
刘道全
3月前
伪装物体分割(COS)任务面临的一项关键挑战在于标注数据极为稀缺,这主要是由于伪装物体与背景之间的边界高度复杂,导致精细的像素级标注过程既耗时又成本高昂。针对“是否能够在完全无需人工标注的情况下,以零样本(zero-shot)方式有效实现伪装物体分割?”
电子科大&Space42针对伪装物体分割(COS)任务中标注数据稀缺、标注成本高的问题,提出了一种零样本条件下的解决方案CAMF,该方法创新性地结合了显著物体分割(SOS)数据集的全局语义表征能力与具备局部注意力机制的主干网络,通过MFA融合多模态大语言模型生成的文本语义信息,实现了对伪装物体全局结构与局部细节的协同感知。
实验表明,CAMF在零样本与全监督设置下均表现出优越性能,能够有效识别多目标场景及细小物体,本工作为零样本分割提供了高效可扩展的方案,适用于医学影像、环境监测等标注稀缺场景,未来工作可扩展至其他密集预测任务,利用更大规模数据优化码本,并平衡计算效率与分割精度。CAMF已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址
wisemodel.cn
00
刘道全
3月前
DeepMind交互式世界模型的重大更新Genie 3,实现了交互式实时长序列生成,让世界模型备受关注,然而Genie 3并没有开源。
昆仑万维「Matrix-Game 2.0」同样实现了通用场景下的交互式实时长序列生成的世界模型,并且全面开源。它在实时生成和长序列能力上实现了质的飞跃。2.0版本更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。
在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。
这使得「Matrix-Game 2.0」不仅打破了内容生成与交互之间的壁垒,也为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能,为构建通用虚拟世界提供了强有力的技术基座。目前Matrix-Game 2.0已上线始智AI-wisemodel开源社区,欢迎体验。

模型地址
wisemodel.cn
00
刘道全
3月前
最强开源深度研究模型MiroMind ODR(Open Deep Research)来了。首先,它做到了性能最强,GAIA测试结果更是达到了82.4分,超过了一众开源闭源模型,其中包括Manus、OpenAI的DeepResearch。其次,它是真的全开源、可复现,它的核心模型、数据、训练流程、AI Infra、DR Agent框架统统开源。

尤其是MiroThinker,其专为深度研究与复杂、长期问题解决设计。它基于Qwen3构建,具备任务分解、多跳推理、检索增强生成、代码执行、网页浏览和文件处理等多种能力。MiroThinker v0.1提供8B、14B和32B参数规模的SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)变体,在GAIA基准测试中表现出色,能够满足广泛的实际应用场景需求。目前已上线始智AI-wisemodel开源社区,欢迎体验。

模型地址
wisemodel.cn
00