大模型算法工程师 — 从零开始学习路线图

发表于2026-04-07|更新于2026-04-07|大模型

|浏览量:

大模型算法工程师 — 从零开始学习路线图

目标：准备大模型算法工程师暑期实习面试
起点：已有 ML 基础（CNN、Self-Attention、GAN、BN 等）+ RL 基础（Value/Policy-Based、Actor-Critic）

阶段一：深度学习与基础补齐（3-4 周）

1.1 深度学习基础 ✅

[X] 神经网络基本结构：感知机 → 多层网络 → 深层网络
[X] 前向传播与反向传播（计算图、链式法则、梯度计算）
[X] 激活函数：ReLU → LeakyReLU → GELU → SiLU/SwiGLU（LLM 常用）
[X] 损失函数：MSE、交叉熵、KL 散度
[X] 优化器演进：SGD → Momentum → Adam → AdamW（权重衰减修正）
[X] 学习率调度：StepLR、Cosine Annealing、Warmup 策略
[X] 正则化：Dropout、Weight Decay、Label Smoothing
[X] 梯度问题：梯度消失/爆炸、梯度裁剪
[X] 参数初始化：Xavier、Kaiming、Pre-LN 下的初始化
[X] 归一化方法：Batch Norm、Layer Norm、RMS Norm（LLM 首选）
[X] 产出: 01_深度学习基础.md

1.2 Transformer 全解 ⬜

[ ] Self-Attention 机制原理与计算过程（结合已有笔记）
[ ] Multi-Head Attention 的作用与直觉
[ ] Positional Encoding（正弦位置编码、RoPE、ALiBi）
[ ] Pre-Norm vs Post-Norm 对比
[ ] Transformer Encoder vs Decoder 结构对比
[ ] KV Cache 原理与优化
[ ] 产出: 02_Transformer.md

1.3 语言模型基础 ⬜

[ ] 统计语言模型 → 神经语言模型 → 预训练语言模型的演进
[ ] Tokenizer 详解：BPE、WordPiece、SentencePiece
[ ] 自回归模型（GPT 系列）vs 自编码模型（BERT）vs 编解码模型（T5、BART）
[ ] 困惑度（Perplexity）与交叉熵损失
[ ] 产出: 03_语言模型基础.md

阶段二：大模型核心技术（3-4 周）

2.1 主流大模型架构 ⬜

[ ] GPT 系列演进：GPT-1/2/3 → InstructGPT → GPT-4
[ ] LLaMA 系列：LLaMA 1/2/3 架构设计选择
[ ] Mistral / Mixtral（MoE 架构）
[ ] Qwen / DeepSeek / GLM 等国产模型概览
[ ] 各架构对比：Normalization 位置、激活函数、位置编码选择
[ ] 产出: 04_主流架构.md

2.2 预训练 ⬜

[ ] 预训练数据 pipeline：采集 → 清洗 → 去重 → 配比
[ ] 预训练任务：CLM（因果语言模型）
[ ] 分布式训练：数据并行、模型并行（张量并行、流水线并行）
[ ] ZeRO 优化（DeepSpeed）与混合精度训练
[ ] 训练稳定性技巧：梯度裁剪、学习率调度（Cosine、Warmup）
[ ] 产出: 05_预训练.md

2.3 微调（Fine-tuning）⬜

[ ] 全参数微调 vs 参数高效微调（PEFT）
[ ] LoRA 原理：低秩分解、A/B 矩阵、rank 选择
[ ] QLoRA：量化 + LoRA 的结合
[ ] 指令微调（SFT）数据构造与训练
[ ] 多轮对话微调
[ ] 产出: 06_微调.md

2.4 对齐（Alignment）⬜

[ ] RLHF 全流程：SFT → Reward Model → PPO
[ ] Reward Model 训练：Bradley-Terry 模型、偏好数据
[ ] PPO 算法详解（结合已有 RL 笔记中的 Policy Gradient）
[ ] DPO：直接偏好优化，绕过 Reward Model
[ ] 其他对齐方法：RLAIF、Constitutional AI、KTO
[ ] 产出: 07_对齐.md

阶段三：推理与部署（2 周）

3.1 推理优化 ⬜

[ ] KV Cache 优化：PagedAttention（vLLM）、RadixAttention
[ ] 模型量化：PTQ（GPTQ、AWQ、SmoothQuant）vs QAT
[ ] 知识蒸馏：Black-box / White-box Distillation
[ ] 模型剪枝（Pruning）与稀疏化
[ ] Speculative Decoding（投机采样）
[ ] Continuous Batching 与调度策略
[ ] 产出: 08_推理优化.md

3.2 推理框架实践 ⬜

[ ] vLLM 部署与使用
[ ] TensorRT-LLM / llama.cpp 概览
[ ] 推理性能指标：吞吐量、首 token 延迟（TTFT）、解码延迟
[ ] 产出: 09_推理框架.md

阶段四：应用与前沿（2-3 周）

4.1 Prompt Engineering ⬜

[ ] Zero-shot / Few-shot / Chain-of-Thought (CoT)
[ ] Self-Consistency、Tree-of-Thought
[ ] Prompt 的鲁棒性与敏感性
[ ] 产出: 10_Prompt工程.md

4.2 RAG（检索增强生成）⬜

[ ] RAG 架构：索引 → 检索 → 生成
[ ] 向量检索与 Embedding 模型
[ ] Chunk 策略与检索优化
[ ] RAG vs Fine-tuning 的选择
[ ] 产出: 11_RAG.md

4.3 Agent ⬜

[ ] ReAct 框架：推理 + 行动
[ ] Tool Use / Function Calling
[ ] Multi-Agent 协作
[ ] Planning 与 Memory 机制
[ ] 产出: 12_Agent.md

4.4 长上下文与多模态 ⬜

[ ] 长上下文方案：RoPE 外推、YaRN、LongLoRA
[ ] 多模态架构：LLaVA、Qwen-VL
[ ] 视觉编码器（ViT / CLIP）与 LLM 的对接
[ ] 产出: 13_长上下文与多模态.md

阶段五：面试冲刺（持续）

5.1 手撕代码 ⬜

[ ] Attention 计算（含 KV Cache）
[ ] LoRA 前向传播
[ ] Beam Search / Top-k / Top-p 采样
[ ] BPE Tokenizer
[ ] 简单 Transformer Block
[ ] 产出: 14_手撕代码.md

5.2 面试高频题 ⬜

[ ] Transformer 系列八股（注意力机制、位置编码、归一化）
[ ] 大模型训练全流程（从数据到部署）
[ ] LoRA vs 全参微调、DPO vs RLHF 对比
[ ] 幻觉（Hallucination）原因与缓解方法
[ ] Scaling Law 与涌现能力
[ ] 产出: 15_面试高频题.md

学习资源

类型	推荐
课程	Stanford CS224N、Stanford CS25、李沐《动手学深度学习》Transformer 章节
论文精读	Attention Is All You Need、GPT 系列、LLaMA、LoRA、RLHF/DPO
博客	Lilian Weng 的博客、Jay Alammar 的图解系列
框架实践	Hugging Face Transformers、DeepSpeed、vLLM
面经	牛客网、知乎「大模型面试」话题

进度追踪

编号	主题	状态	完成日期
01	深度学习基础	✅	2026-04-06
02	Transformer 全解	⬜
03	语言模型基础	⬜
04	主流架构	⬜
05	预训练	⬜
06	微调	⬜
07	对齐	⬜
08	推理优化	⬜
09	推理框架	⬜
10	Prompt 工程	⬜
11	RAG	⬜
12	Agent	⬜
13	长上下文与多模态	⬜
14	手撕代码	⬜
15	面试高频题	⬜

文章作者: Levius

文章链接: https://leviusspace.top/2026/04/07/0-%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF%E5%9B%BE/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 L_F's Blog！

学习路线大模型