DeepSeek 發布視覺基元推理報告,解決多模態 Reference Gap
2026 年 4 月 30 日,DeepSeek 公開技術報告《Thinking with Visual Primitives》,提出將點、框等視覺基元作為思維最小單元交錯嵌入推理鏈,解決複雜結構推理中的 Reference Gap。方法基於 DeepSeek-V4-Flash 架構,壓縮 KV 緩存,以極低圖像 token 消耗完成推理。在計數和空間推理基準上,該模型性能與 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 相當(論文強調僅覆蓋部分相關維度,不代表整體能力)。未來將開源內部基準、部分冷啟動數據,權重將整合至基礎模型后發布。