21日,DeepSeek官方GitHub倉庫更新了一系列FlashMLA代碼,藉助AI對全部總代碼文件數:114個(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)進行分析,發現了一個此前未公開的模型架構標識 「MODEL1」,共被提及31次。MODEL1是DeepSeek FlashMLA中支持的兩個主要模型架構之一,另一個是 DeepSeek -V3.2。據推測,MODEL1很可能是一個高效推理模型,相比V3.2,內存佔用更低,適合邊緣設備或成本敏感場景。它也可能是一個長序列專家,針對 16K+ 序列優化,適合文檔理解、代碼分析等長上下文任務。此前媒體爆料,DeepSeek將在今年2月中旬農曆新年期間推出新一代旗艦AI模型——DeepSeek V4,將具備更強的寫代碼能力。
—— 科創板日報
轉自: 風向旗快訊