即刻App年轻人的同好社区
下载
App内打开
歸藏
2天前
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。

自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。

模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。

在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。

详情:github.com
52

来自圈子

圈子图片

AI探索站

111000人已经加入