DeepSeek最新论文直接给Transformer加上“条件记忆”(Conditional Memory),补上了原生缺乏的知识查找机制。结论中明写道:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。该论文由梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作。
赞一个