0

DeepSeek多模态模型上线,技术报告也公开了

admin
今天 02:27

DeepSeek多模态模型上线,技术报告也公开了

4月30日,DeepSeek在GitHub发布了多模态模型和技术报告。

现在的多模态大模型进步很快,但主流的”思维链”还是围着文字转。之前大家忙着用高清裁剪让模型”看得更清”,却漏了一个根本问题:文字太含糊,描述复杂空间布局总差点意思,一碰到需要精确定位的任务就容易翻车。

DeepSeek想了个新招——让模型用”视觉原语”思考。把点、边界框这些空间标记当成思考的”基本零件”塞进推理过程,这样模型思考时就能直接”指”到图上具体位置,想法能对应到图片坐标。

更厉害的是,这个模型个头不大,吃的图像token也不多,但在计数和空间推理这些硬测试上,已经能和GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash这些大牌打平。这也给未来做更聪明、更省资源的多模态AI指了条路。

文章导航