DeepSeek多模态模型上线，技术报告也公开了

admin

今天 02:27

4月30日，DeepSeek在GitHub发布了多模态模型和技术报告。

现在的多模态大模型进步很快，但主流的”思维链”还是围着文字转。之前大家忙着用高清裁剪让模型”看得更清”，却漏了一个根本问题：文字太含糊，描述复杂空间布局总差点意思，一碰到需要精确定位的任务就容易翻车。

DeepSeek想了个新招——让模型用”视觉原语”思考。把点、边界框这些空间标记当成思考的”基本零件”塞进推理过程，这样模型思考时就能直接”指”到图上具体位置，想法能对应到图片坐标。

更厉害的是，这个模型个头不大，吃的图像token也不多，但在计数和空间推理这些硬测试上，已经能和GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash这些大牌打平。这也给未来做更聪明、更省资源的多模态AI指了条路。

本文著作权归作者所有，并授权独家使用，未经许可，不得转载使用。