大模型算法工程师 — 从零开始学习路线图
大模型算法工程师 — 从零开始学习路线图
目标:准备大模型算法工程师暑期实习面试
起点:已有 ML 基础(CNN、Self-Attention、GAN、BN 等)+ RL 基础(Value/Policy-Based、Actor-Critic)
阶段一:深度学习与基础补齐(3-4 周)
1.1 深度学习基础 ✅
- [X] 神经网络基本结构:感知机 → 多层网络 → 深层网络
- [X] 前向传播与反向传播(计算图、链式法则、梯度计算)
- [X] 激活函数:ReLU → LeakyReLU → GELU → SiLU/SwiGLU(LLM 常用)
- [X] 损失函数:MSE、交叉熵、KL 散度
- [X] 优化器演进:SGD → Momentum → Adam → AdamW(权重衰减修正)
- [X] 学习率调度:StepLR、Cosine Annealing、Warmup 策略
- [X] 正则化:Dropout、Weight Decay、Label Smoothing
- [X] 梯度问题:梯度消失/爆炸、梯度裁剪
- [X] 参数初始化:Xavier、Kaiming、Pre-LN 下的初始化
- [X] 归一化方法:Batch Norm、Layer Norm、RMS Norm(LLM 首选)
- [X] 产出:
01_深度学习基础.md
1.2 Transformer 全解 ⬜
- [ ] Self-Attention 机制原理与计算过程(结合已有笔记)
- [ ] Multi-Head Attention 的作用与直觉
- [ ] Positional Encoding(正弦位置编码、RoPE、ALiBi)
- [ ] Pre-Norm vs Post-Norm 对比
- [ ] Transformer Encoder vs Decoder 结构对比
- [ ] KV Cache 原理与优化
- [ ] 产出:
02_Transformer.md
1.3 语言模型基础 ⬜
- [ ] 统计语言模型 → 神经语言模型 → 预训练语言模型的演进
- [ ] Tokenizer 详解:BPE、WordPiece、SentencePiece
- [ ] 自回归模型(GPT 系列)vs 自编码模型(BERT)vs 编解码模型(T5、BART)
- [ ] 困惑度(Perplexity)与交叉熵损失
- [ ] 产出:
03_语言模型基础.md
阶段二:大模型核心技术(3-4 周)
2.1 主流大模型架构 ⬜
- [ ] GPT 系列演进:GPT-1/2/3 → InstructGPT → GPT-4
- [ ] LLaMA 系列:LLaMA 1/2/3 架构设计选择
- [ ] Mistral / Mixtral(MoE 架构)
- [ ] Qwen / DeepSeek / GLM 等国产模型概览
- [ ] 各架构对比:Normalization 位置、激活函数、位置编码选择
- [ ] 产出:
04_主流架构.md
2.2 预训练 ⬜
- [ ] 预训练数据 pipeline:采集 → 清洗 → 去重 → 配比
- [ ] 预训练任务:CLM(因果语言模型)
- [ ] 分布式训练:数据并行、模型并行(张量并行、流水线并行)
- [ ] ZeRO 优化(DeepSpeed)与混合精度训练
- [ ] 训练稳定性技巧:梯度裁剪、学习率调度(Cosine、Warmup)
- [ ] 产出:
05_预训练.md
2.3 微调(Fine-tuning)⬜
- [ ] 全参数微调 vs 参数高效微调(PEFT)
- [ ] LoRA 原理:低秩分解、A/B 矩阵、rank 选择
- [ ] QLoRA:量化 + LoRA 的结合
- [ ] 指令微调(SFT)数据构造与训练
- [ ] 多轮对话微调
- [ ] 产出:
06_微调.md
2.4 对齐(Alignment)⬜
- [ ] RLHF 全流程:SFT → Reward Model → PPO
- [ ] Reward Model 训练:Bradley-Terry 模型、偏好数据
- [ ] PPO 算法详解(结合已有 RL 笔记中的 Policy Gradient)
- [ ] DPO:直接偏好优化,绕过 Reward Model
- [ ] 其他对齐方法:RLAIF、Constitutional AI、KTO
- [ ] 产出:
07_对齐.md
阶段三:推理与部署(2 周)
3.1 推理优化 ⬜
- [ ] KV Cache 优化:PagedAttention(vLLM)、RadixAttention
- [ ] 模型量化:PTQ(GPTQ、AWQ、SmoothQuant)vs QAT
- [ ] 知识蒸馏:Black-box / White-box Distillation
- [ ] 模型剪枝(Pruning)与稀疏化
- [ ] Speculative Decoding(投机采样)
- [ ] Continuous Batching 与调度策略
- [ ] 产出:
08_推理优化.md
3.2 推理框架实践 ⬜
- [ ] vLLM 部署与使用
- [ ] TensorRT-LLM / llama.cpp 概览
- [ ] 推理性能指标:吞吐量、首 token 延迟(TTFT)、解码延迟
- [ ] 产出:
09_推理框架.md
阶段四:应用与前沿(2-3 周)
4.1 Prompt Engineering ⬜
- [ ] Zero-shot / Few-shot / Chain-of-Thought (CoT)
- [ ] Self-Consistency、Tree-of-Thought
- [ ] Prompt 的鲁棒性与敏感性
- [ ] 产出:
10_Prompt工程.md
4.2 RAG(检索增强生成)⬜
- [ ] RAG 架构:索引 → 检索 → 生成
- [ ] 向量检索与 Embedding 模型
- [ ] Chunk 策略与检索优化
- [ ] RAG vs Fine-tuning 的选择
- [ ] 产出:
11_RAG.md
4.3 Agent ⬜
- [ ] ReAct 框架:推理 + 行动
- [ ] Tool Use / Function Calling
- [ ] Multi-Agent 协作
- [ ] Planning 与 Memory 机制
- [ ] 产出:
12_Agent.md
4.4 长上下文与多模态 ⬜
- [ ] 长上下文方案:RoPE 外推、YaRN、LongLoRA
- [ ] 多模态架构:LLaVA、Qwen-VL
- [ ] 视觉编码器(ViT / CLIP)与 LLM 的对接
- [ ] 产出:
13_长上下文与多模态.md
阶段五:面试冲刺(持续)
5.1 手撕代码 ⬜
- [ ] Attention 计算(含 KV Cache)
- [ ] LoRA 前向传播
- [ ] Beam Search / Top-k / Top-p 采样
- [ ] BPE Tokenizer
- [ ] 简单 Transformer Block
- [ ] 产出:
14_手撕代码.md
5.2 面试高频题 ⬜
- [ ] Transformer 系列八股(注意力机制、位置编码、归一化)
- [ ] 大模型训练全流程(从数据到部署)
- [ ] LoRA vs 全参微调、DPO vs RLHF 对比
- [ ] 幻觉(Hallucination)原因与缓解方法
- [ ] Scaling Law 与涌现能力
- [ ] 产出:
15_面试高频题.md
学习资源
| 类型 | 推荐 |
|---|---|
| 课程 | Stanford CS224N、Stanford CS25、李沐《动手学深度学习》Transformer 章节 |
| 论文精读 | Attention Is All You Need、GPT 系列、LLaMA、LoRA、RLHF/DPO |
| 博客 | Lilian Weng 的博客、Jay Alammar 的图解系列 |
| 框架实践 | Hugging Face Transformers、DeepSpeed、vLLM |
| 面经 | 牛客网、知乎「大模型面试」话题 |
进度追踪
| 编号 | 主题 | 状态 | 完成日期 |
|---|---|---|---|
| 01 | 深度学习基础 | ✅ | 2026-04-06 |
| 02 | Transformer 全解 | ⬜ | |
| 03 | 语言模型基础 | ⬜ | |
| 04 | 主流架构 | ⬜ | |
| 05 | 预训练 | ⬜ | |
| 06 | 微调 | ⬜ | |
| 07 | 对齐 | ⬜ | |
| 08 | 推理优化 | ⬜ | |
| 09 | 推理框架 | ⬜ | |
| 10 | Prompt 工程 | ⬜ | |
| 11 | RAG | ⬜ | |
| 12 | Agent | ⬜ | |
| 13 | 长上下文与多模态 | ⬜ | |
| 14 | 手撕代码 | ⬜ | |
| 15 | 面试高频题 | ⬜ |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 L_F's Blog!