米升网 2025年DeepSeek核心技术白话解读报告_训练_应用_模型
西北工业大学:2025年DeepSeek核心技术白话解读报告米升网
报告共计:36页
本文是西北工业大学计算机学院王鹏教授关于DeepSeek核心技术的报告,围绕DeepSeek的技术创新、应用段位、现存问题及未来展望展开,核心在于以低成本实现高性能。
1. 技术创新
- 学习策略:采用强化学习完全替代后训练阶段的监督微调,运用GRPO算法,放弃过程监督,减少对思维链标注的依赖,通过简单反馈信号提升模型推理能力,降低数据标注成本,增强后训练可扩展性。
- 模型结构:改进Transformer的前向计算网络,采用混合专家结构(MOE),将前向计算网络分割,动态激活部分专家提升计算效率,DeepSeekMOE进一步细化专家分割,并解决了由此带来的负载均衡等工程问题。
- 工程实现:结合计算硬件创新,使用FP8混合精度训练,提升训练速度;采用4D并行策略和通信计算重叠技术进行分布式训练优化;预填充与解码阶段分离,结合余专家动态路由,实现高吞吐量与低延迟的在线服务。
展开剩余82%2. 应用段位:青铜段位可通过直接问答和提示工程掌握基础应用;白银段位将LLM作为Agent连接其他软件系统扩展功能;星耀段位对模型进行后训练;王者段位则需掌握预训练与后训练全过程,优化模型在复杂场景下的表现。
3. 现存问题:大模型普遍存在幻觉问题,在文生图和图生文任务中较为突出,可通过提升模型推理能力和语境理解减少该问题。此外,模型压缩技术有待发展,包括剪枝、位宽量化和知识蒸馏等,以降低计算成本、提高推理效率。
4. 未来展望:多模态大模型将同时处理多源多平台信息米升网,催生新应用;具身智能使机器人在复杂环境中自主学习和适应,展现类似人类的能力。这将推动AI技术在更多领域的应用和发展。
以下为报告节选内容
发布于:北京市易宝配资提示:文章来自网络,不代表本站观点。