即刻App年轻人的同好社区
下载
App内打开
刘道全
25关注74被关注0夸夸
始智AI wisemodel创始人
兼清华校友总会AI大数据专委会副秘书长
刘道全
3月前
人类对世界的认知,源于亲手触摸、尝试与探索,而非被动观察。但当前主流视频生成模型如 Sora,仅靠海量视频数据学习,缺乏真实世界交互体验,常常出现违背物理常识的 “幻觉”。近日,由北京人形机器人创新中心与香港科技大学等机构联合推出的 WoW 世界模型,凭借 200 万条真实机器人交互数据,打通 “感知 - 想象 - 反思 - 行动” 闭环,让 AI 真正具备物理直觉,为 embodied intelligence 发展奠定关键基础!已上线始智AI-wisemodel开源社区,欢迎体验。
wisemodel.cn
00
刘道全
3月前
随着大语言模型(LLMs)在复杂编码和推理任务中的飞速进步,传统编程基准已难以跟上其发展步伐。现有测试要么难度不足,要么评估方式脱离实际场景,无法精准衡量模型的 “慢思考” 和迭代优化能力。近日,中国人民大学高瓴人工智能学院团队推出 ICPC-Eval 基准测试,以顶级编程竞赛题目为核心,创新评估机制与本地测试工具,为 LLM 推理能力提供了更严苛、更真实的检验标准!已上线始智AI-wisemodel开源社区,欢迎体验。

代码和数据集地址

wisemodel.cn

wisemodel.cn
00
刘道全
3月前
随着大语言模型(LLM)在科研和产业界的广泛应用,模型复用已成为常态。但高昂的训练成本催生了 "伪原创" 乱象,部分开发者将开源模型微调或重打包后,谎称是 "从零训练" 的原创模型,严重侵犯知识产权。近日,武汉大学李祖超团队推出的 GhostSpec 技术,凭借创新的光谱指纹识别方案,无需训练数据、不改动模型,就能精准追溯 LLM "血缘" 关系,为开源模型生态的透明化提供了强力工具!已上线始智AI-wisemodel开源社区,欢迎体验。
00
刘道全
4月前
AI 图像生成技术飞速发展的今天,指令型图像编辑已成为热门赛道。只需输入文字描述,就能让 AI 精准修改图像内容。但传统模型往往受限于有监督微调的固有缺陷,容易过度拟合训练数据,难以应对复杂多样的编辑需求。近日,北京大学与Rabbitpre AI联合团队推出的UniWorld-V2,凭借创新的Edit-R1 后训练框架,在两大权威基准测试中刷新纪录,为图像编辑技术带来突破性进展!已上线始智AI-wisemodel开源社区,欢迎体验。
00
刘道全
4月前
过去一周,智谱 GLM 先后开源了多模态模型家族:从「眼睛看得见」的视觉理解模型 GLM‑4.6V,到「手能动起来」的 AutoGLM,再到「语音听得懂」的 GLM‑ASR,与「话能说出口」的 GLM‑TTS。

GLM 团队希望让大模型逐步拥有人的世界知识、记忆能力、复杂推理能力,以及拥有多模态处理能力,最终实现 AGI。在一周内,智谱 GLM 开源了覆盖视觉理解、设备操作、语音的多模态模型,从文本扩展到多模态,不断探寻智能边界。

在多模态开源周的收官之日,智谱 GLM 再开源四项面向视频生成的核心技术成果:SCAIL、RealVideo、Kaleido SSVAE。它们对准当前视频生成领域的三大难点:精细化可控生成、复杂时空结构建模,以及大规模训练成本控制。

SCAIL:影视级角色动画生成框架,实现 SOTA 姿态控制;

RealVideo:实时流式视频生成系统,仅 2-3 秒首响延迟;

Kaleido:多主体视频生成框架,一致性开源 SOTA;

SSVAE:频谱结构化变分自编码器 VAE,3 倍收敛加速。

智谱 GLM 希望通过开源这四项底层技术,为繁荣的视频生成技术社区、产品社区,提供一些工程方案与理论研究,方便社区直接复现与二次开发。已上线始智AI-wisemodel开源社区,欢迎体验。
00
刘道全
4月前
提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、生成文本、甚至推理多模态内容,几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上,这些强大的模型却频频失手。电网调度、用户建模、通信日志…… 现实世界中大量关键系统的核心数据都以表格形式存在。然而,无论是直接微调 LLM,还是采用专门为表格设计的深度架构(如 TabNet、SAINT、FT-Transformer),其性能在多数真实场景下仍难以超越 XGBoost、CatBoost 等传统梯度提升方法。

这引出一个尖锐的问题:为什么在非结构化数据上所向披靡的现代深度学习,在结构化数据建模中却长期陷入瓶颈?

直指这个核心问题,清华大学崔鹏团队做出了他们的回应 ——LimiX。不同于其他模型只能进行一种下游任务,LimiX-2M 在同时支持分类、回归、缺失值插补等任务的前提下,以仅有 2M 的模型参数超越了包括 XGBoost、CatBoost 在内的经典模型,并在与 AutoGluon TabPFN 的对比中展示出显著优势,仅次于 LimiX 前期发布的 LimiX-16M。

LimiX 的开源使中国在表格建模领域的研究真正站到了世界的最前沿,力压 Amazon AWS,Inria 等一系列顶尖机构在诸多性能测试上登顶!仅仅 2M 的模型体量使得快速微调和工程适配成为可能,为各领域研究和工业应用提供了无限可能。LimiX-2M已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
00
刘道全
4月前
你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。但一个灵魂拷问始终存在:这些词真的代表模型在「思考」,还是仅仅为了「表演」更像人类而添加的语言装饰?是模型的「顿悟时刻」,还是纯粹的「烟雾弹」?

来自中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院(UCL)和大连理工大学的联合研究团队,在最新论文中首次利用信息论这把「手术刀」,精准解剖了大模型内部的推理动态,给出了令人信服的答案:当这些「思考词」出现的瞬间,模型大脑(隐空间)中关于正确答案的信息量,会突然飙升数倍!

这绝非偶然装饰,而是真正的「信息高峰」与「决策拐点」!更酷的是,基于这一发现,研究者提出了无需额外训练就能显著提升模型推理性能的简单方法,代码已开源已上线始智AI-wisemodel开源社区,欢迎使用。
00
刘道全
4月前
AI 任务越来越复杂,硬件也越来越多样,现在大家都急需一种智能系统,不用手动调试,就能直接生成高性能 GPU 内核。不管是运行顶尖大语言模型的超大规模数据中心,还是学术研究用的高性能计算集群,软件和硬件得高效配合才能落地,这种需求就更迫切了。

虽然现在大语言模型在代码生成上挺厉害,但要写出能正确运行、还高效的 GPU 代码,依然是个大难题。而 AI 辅助开发 GPU 内核(尤其是针对 AMD Instinct™ MI300X 这类新型硬件),能大大提升开发效率,加快部署速度。

AMD 推出了 GEAK(生成高效 AI 中心 GPU 内核),一款专门针对 AMD Instinct™ GPU 的自动 Triton 内核生成智能体框架。它把最先进的大语言模型和结构化推理、反馈循环结合起来,就是要把 AI 辅助代码生成的能力再提一个档次。

同时还发布了两个评估基准:一个是 TritonBench 修订版(从 TritonBench-G 改编而来,包含 184 个内核,测试工具更严格),另一个是全新的 ROCm Triton 基准(从 AMD 开源 ROCm 仓库挑选 30 个真实场景内核),用来测试 AI 生成内核的正确性和运行性能。

实际测试结果很亮眼:GEAK 比直接用大语言模型生成代码强太多 ——TritonBench 修订版上正确生成率高达 54.89%,ROCm Triton 基准上更是达到 63.33%,而直接提示大语言模型不做智能体反馈的话,正确率还不到 15%。另外,GEAK 生成的内核在 TritonBench 修订版上,比原来的参考版本平均快 2.59 倍。还对 ROCm Triton 基准中的一个高性能内核做了详细研究,并且已经开源了 GEAK 智能体和评估框架。

目前,GEAK-agent已开源上线始智AI-wisemodel开源社区,8月底举办的AMD AI 速训营24小时 GPU黑客松的一个赛题就是基于GEAK-Agent设计的,几十个团队已经在参赛时深度体验和尝试,欢迎更多感兴趣的朋友前往体验和尝试。
00
刘道全
5月前
11月11日,百度文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式开源。本模型仅3B激活参数,媲美顶级大模型性能!ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型,在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源,允许商业使用。模型已上线始智AI-wisemodel开源社区,欢迎体验。
00
刘道全
5月前
大模型驱动的语义表示时代,文本嵌入模型(Text Embedding Models)已成为检索、STS、分类、排序等各类NLP下游任务的核心基石。然而,主流嵌入模型普遍依赖大规模数据或合成数据,很少系统性探索训练技巧与数据质量的协同优化。

结果就是,并且由于模型体积庞大,部署成本高昂,其泛化能力和可复现性不太理想。

此外,多数业界领先的嵌入模型来源于头部公司,其专有数据、封闭代码和商业限制为学术界和开发者社区带来了巨大的挑战,使得高效、可复现的研究难以进行。

为此,KaLM-Embedding团队推出了KaLM-Embedding-V2系列模型,一个以高质量数据+精湛训练技巧为核心打造的紧凑通用嵌入解决方案。它不仅性能强悍,更以0.5B参数的“小体型”挑战甚至超越多个7B~9B级模型!与同参数量规模的Qwen3-Embedding-0.6B以及bge-m3相比,KaLM-Embedding-V2系列展现出来显著的性能优势。

最重要的是,KaLM-Embedding不仅仅是一系列单点模型,而是一个面向学术界的全面开源贡献:

完整的数据配方和全开源的数据:让研究者能直接从training-ready的数据集着手;

卓越的训练技术:让研究者快速构建媲美工业级的检索器模型。

开放的商业授权:明确开放模型的商用权限,旨在推动RAG基础设施的普及;

完整的训练与推理代码:降低复现与扩展的门槛,以及下游任务适配难度;

KaLM-Embedding团队望借此推动通用文本嵌入技术的开放:让任何研究者、开发者乃至企业团队,都能自由使用、改进与扩展这一嵌入框架;让高质量的语义理解能力不再只属于超大规模模型与封闭系统,而能通过开放数据与透明训练,被更广泛地共享、验证与创新。模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
00