昨日下午,DeepSeek 在 AI 开源社区 Hugging Face 发布了一个名字 DeepSeek-Prover-V2-671B 的新模型。
据介绍,DeepSeek-Prover-V2-671B 它的参数达到6710亿,使用更加有效。 safetensors 文件类型,并支持 BF16、FP8、F32 等待多种计算精度,方便模型更快、节约资源的练习与布署。
该模型采用DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。
同时,最大位置嵌入163840,可以处理复杂的数学证书,采用FP8量化,通过量化技术可以减少模型尺寸,提高推理效率。
一些网民分析说,这个模型被认为是 Prover-V1.5升级版,致力于形式化定理证明,专门用于突破数学问题,擅长自动证明定律和复杂计算,类似于 AlphaGo 围棋中的自我游戏模式。
接着它的性能检测表现将如何,值得期待。
赞一个