今日,DeepSeek在AI開源社區Hugging Face上推出了一款全新模型DeepSeek-Prover-V2-671B。這款模型采用了更高效的safetensors文件格式,支持多種計算精度,從而讓模型訓練與部署更加高效且節省資源。作為去年Prover-V1.5數學模型的升級版本,其參數規模達到了6710億,為復雜任務提供了強大的算力支持。這一改進使得模型在處理數學證明等領域表現更為突出。
在架構設計方面,DeepSeek-Prover-V2-671B基于DeepSeek-V3架構構建,采用MoE(混合專家)模式,包含61層Transformer層和7168維隱藏層。同時,該模型支持超長上下文,最大位置嵌入可達16.38萬,這使其能夠應對更加復雜的數學推理場景。此外,FP8量化的引入不僅有效減小了模型體積,還進一步提升了推理效率,為實際應用提供了更多可能性。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。