Page not found. 不知道为啥，DeepSeek好像把项目给下架了🤣

目前是单独模型吧？期待整合到v4pro

希望 DeepSeek 能出个适配自己模型的 harness

牛批，V4.x 说不定就能调个Pro版本多模态出来了。

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

底座是 DeepSeek-V4-Flash，MoE架构，总参数量 284B，激活参数量 13B。

自研 DeepSeek‑ViT 视觉编码模型，14×14 patch，输出后 3×3 空间压缩，再接入 LLM。

模型在回答时不仅进行文字推理，还会同时通过画框、打点等“视觉原语”进行思考。

在极低的 Token 成本下，其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐，甚至有的指标能反超。

详情：https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

产品设计师、模型设计师、 不会代码的独立开发者。  关注人工智能、LLM 、 Stable Diffusion 和设计。

来自圈子

AI探索站