大模型算法工程师 — 从零开始学习路线图

目标:准备大模型算法工程师暑期实习面试
起点:已有 ML 基础(CNN、Self-Attention、GAN、BN 等)+ RL 基础(Value/Policy-Based、Actor-Critic)


阶段一:深度学习与基础补齐(3-4 周)

1.1 深度学习基础 ✅

  • [X] 神经网络基本结构:感知机 → 多层网络 → 深层网络
  • [X] 前向传播与反向传播(计算图、链式法则、梯度计算)
  • [X] 激活函数:ReLU → LeakyReLU → GELU → SiLU/SwiGLU(LLM 常用)
  • [X] 损失函数:MSE、交叉熵、KL 散度
  • [X] 优化器演进:SGD → Momentum → Adam → AdamW(权重衰减修正)
  • [X] 学习率调度:StepLR、Cosine Annealing、Warmup 策略
  • [X] 正则化:Dropout、Weight Decay、Label Smoothing
  • [X] 梯度问题:梯度消失/爆炸、梯度裁剪
  • [X] 参数初始化:Xavier、Kaiming、Pre-LN 下的初始化
  • [X] 归一化方法:Batch Norm、Layer Norm、RMS Norm(LLM 首选)
  • [X] 产出: 01_深度学习基础.md

1.2 Transformer 全解 ⬜

  • [ ] Self-Attention 机制原理与计算过程(结合已有笔记)
  • [ ] Multi-Head Attention 的作用与直觉
  • [ ] Positional Encoding(正弦位置编码、RoPE、ALiBi)
  • [ ] Pre-Norm vs Post-Norm 对比
  • [ ] Transformer Encoder vs Decoder 结构对比
  • [ ] KV Cache 原理与优化
  • [ ] 产出: 02_Transformer.md

1.3 语言模型基础 ⬜

  • [ ] 统计语言模型 → 神经语言模型 → 预训练语言模型的演进
  • [ ] Tokenizer 详解:BPE、WordPiece、SentencePiece
  • [ ] 自回归模型(GPT 系列)vs 自编码模型(BERT)vs 编解码模型(T5、BART)
  • [ ] 困惑度(Perplexity)与交叉熵损失
  • [ ] 产出: 03_语言模型基础.md

阶段二:大模型核心技术(3-4 周)

2.1 主流大模型架构 ⬜

  • [ ] GPT 系列演进:GPT-1/2/3 → InstructGPT → GPT-4
  • [ ] LLaMA 系列:LLaMA 1/2/3 架构设计选择
  • [ ] Mistral / Mixtral(MoE 架构)
  • [ ] Qwen / DeepSeek / GLM 等国产模型概览
  • [ ] 各架构对比:Normalization 位置、激活函数、位置编码选择
  • [ ] 产出: 04_主流架构.md

2.2 预训练 ⬜

  • [ ] 预训练数据 pipeline:采集 → 清洗 → 去重 → 配比
  • [ ] 预训练任务:CLM(因果语言模型)
  • [ ] 分布式训练:数据并行、模型并行(张量并行、流水线并行)
  • [ ] ZeRO 优化(DeepSpeed)与混合精度训练
  • [ ] 训练稳定性技巧:梯度裁剪、学习率调度(Cosine、Warmup)
  • [ ] 产出: 05_预训练.md

2.3 微调(Fine-tuning)⬜

  • [ ] 全参数微调 vs 参数高效微调(PEFT)
  • [ ] LoRA 原理:低秩分解、A/B 矩阵、rank 选择
  • [ ] QLoRA:量化 + LoRA 的结合
  • [ ] 指令微调(SFT)数据构造与训练
  • [ ] 多轮对话微调
  • [ ] 产出: 06_微调.md

2.4 对齐(Alignment)⬜

  • [ ] RLHF 全流程:SFT → Reward Model → PPO
  • [ ] Reward Model 训练:Bradley-Terry 模型、偏好数据
  • [ ] PPO 算法详解(结合已有 RL 笔记中的 Policy Gradient)
  • [ ] DPO:直接偏好优化,绕过 Reward Model
  • [ ] 其他对齐方法:RLAIF、Constitutional AI、KTO
  • [ ] 产出: 07_对齐.md

阶段三:推理与部署(2 周)

3.1 推理优化 ⬜

  • [ ] KV Cache 优化:PagedAttention(vLLM)、RadixAttention
  • [ ] 模型量化:PTQ(GPTQ、AWQ、SmoothQuant)vs QAT
  • [ ] 知识蒸馏:Black-box / White-box Distillation
  • [ ] 模型剪枝(Pruning)与稀疏化
  • [ ] Speculative Decoding(投机采样)
  • [ ] Continuous Batching 与调度策略
  • [ ] 产出: 08_推理优化.md

3.2 推理框架实践 ⬜

  • [ ] vLLM 部署与使用
  • [ ] TensorRT-LLM / llama.cpp 概览
  • [ ] 推理性能指标:吞吐量、首 token 延迟(TTFT)、解码延迟
  • [ ] 产出: 09_推理框架.md

阶段四:应用与前沿(2-3 周)

4.1 Prompt Engineering ⬜

  • [ ] Zero-shot / Few-shot / Chain-of-Thought (CoT)
  • [ ] Self-Consistency、Tree-of-Thought
  • [ ] Prompt 的鲁棒性与敏感性
  • [ ] 产出: 10_Prompt工程.md

4.2 RAG(检索增强生成)⬜

  • [ ] RAG 架构:索引 → 检索 → 生成
  • [ ] 向量检索与 Embedding 模型
  • [ ] Chunk 策略与检索优化
  • [ ] RAG vs Fine-tuning 的选择
  • [ ] 产出: 11_RAG.md

4.3 Agent ⬜

  • [ ] ReAct 框架:推理 + 行动
  • [ ] Tool Use / Function Calling
  • [ ] Multi-Agent 协作
  • [ ] Planning 与 Memory 机制
  • [ ] 产出: 12_Agent.md

4.4 长上下文与多模态 ⬜

  • [ ] 长上下文方案:RoPE 外推、YaRN、LongLoRA
  • [ ] 多模态架构:LLaVA、Qwen-VL
  • [ ] 视觉编码器(ViT / CLIP)与 LLM 的对接
  • [ ] 产出: 13_长上下文与多模态.md

阶段五:面试冲刺(持续)

5.1 手撕代码 ⬜

  • [ ] Attention 计算(含 KV Cache)
  • [ ] LoRA 前向传播
  • [ ] Beam Search / Top-k / Top-p 采样
  • [ ] BPE Tokenizer
  • [ ] 简单 Transformer Block
  • [ ] 产出: 14_手撕代码.md

5.2 面试高频题 ⬜

  • [ ] Transformer 系列八股(注意力机制、位置编码、归一化)
  • [ ] 大模型训练全流程(从数据到部署)
  • [ ] LoRA vs 全参微调、DPO vs RLHF 对比
  • [ ] 幻觉(Hallucination)原因与缓解方法
  • [ ] Scaling Law 与涌现能力
  • [ ] 产出: 15_面试高频题.md

学习资源

类型 推荐
课程 Stanford CS224N、Stanford CS25、李沐《动手学深度学习》Transformer 章节
论文精读 Attention Is All You Need、GPT 系列、LLaMA、LoRA、RLHF/DPO
博客 Lilian Weng 的博客、Jay Alammar 的图解系列
框架实践 Hugging Face Transformers、DeepSpeed、vLLM
面经 牛客网、知乎「大模型面试」话题

进度追踪

编号 主题 状态 完成日期
01 深度学习基础 2026-04-06
02 Transformer 全解
03 语言模型基础
04 主流架构
05 预训练
06 微调
07 对齐
08 推理优化
09 推理框架
10 Prompt 工程
11 RAG
12 Agent
13 长上下文与多模态
14 手撕代码
15 面试高频题