L_F's Blog

发表于2026-04-07|大模型

大模型算法工程师 — 从零开始学习路线图目标：准备大模型算法工程师暑期实习面试起点：已有 ML 基础（CNN、Self-Attention、GAN、BN 等）+ RL 基础（Value/Policy-Based、Actor-Critic）阶段一：深度学习与基础补齐（3-4 周） 1.1 深度学习基础 ✅ [X] 神经网络基本结构：感知机 → 多层网络 → 深层网络 [X] 前向传播与反向传播（计算图、链式法则、梯度计算） [X] 激活函数：ReLU → LeakyReLU → GELU → SiLU/SwiGLU（LLM 常用） [X] 损失函数：MSE、交叉熵、KL 散度 [X] 优化器演进：SGD → Momentum → Adam → AdamW（权重衰减修正） [X] 学习率调度：StepLR、Cosine Annealing、Warmup 策略 [X] 正则化：Dropout、Weight Decay、Label Smoothing [X] 梯度问题：梯度消失/爆炸、梯度裁剪 [X] 参数初始化：Xavier、Kaiming、Pre-LN...

深度学习基础

发表于2026-04-06|大模型深度学习基础

深度学习基础目录 1. 神经网络基本结构 2. 损失函数 3. 梯度下降与反向传播 4. 梯度消失与梯度爆炸 5. 归一化 6. 激活函数 7. 优化器 8. 正则化 9. 参数初始化 10. 学习率调度 11. 概念关系总结 12. 数学符号汇总 1. 神经网络基本结构 1.1 线性模型最简单的神经网络就是线性模型： y^=wx+b\hat{y} = wx + b y^=wx+b www（权重/weight）：控制输入 xxx 对输出 y^\hat{y}y^ 的影响程度（斜率） bbb（偏置/bias）：决定 x=0x=0x=0 时的输出基准值（截距） 1.2 为什么需要多层单层线性模型只能拟合线性关系。直觉上，堆叠多层似乎能拟合更复杂的函数。但有一个关键问题——如果没有非线性变换，多层线性网络等价于单层。假设一个两层网络： y^=w2(w1x+b1)+b2=w2w1⋅x+w2b1+b2=W′x+b′\hat{y} = w_2(w_1 x + b_1) + b_2 = w_2 w_1 \cdot x + w_2 b_1 + b_2 =...

强化学习基本概念

发表于2026-04-06|强化学习

强化学习基本概念目录 1. 核心术语 2. Agent与环境交互 3. 策略 Policy 4. 状态转移 5. 回报 Return 6. 价值函数 7. 智能体控制 1. 核心术语 1.1 状态 (State, sts_tst) 状态是对环境的完整描述，包含了智能体在当前时刻所感知到的所有信息。在游戏场景中，状态通常是当前的游戏画面帧。 1.2 动作 (Action, ata_tat) 动作是智能体在某个状态下可以采取的行为。动作空间可以是离散的（如上下左右），也可以是连续的（如控制机械臂的角度）。 at∈{left,right,up}a_t \in \{\text{left}, \text{right}, \text{up}\} at∈{left,right,up} 1.3 奖励 (Reward, rtr_trt) 奖励是环境对智能体在时刻 ttt 采取动作 ata_tat 后的反馈，是一个标量值。正奖励表示好的结果，负奖励表示坏的结果。 2. Agent与环境交互强化学习的核心是智能体(Agent) 与...

基于价值的强化学习

发表于2026-04-06|强化学习

基于价值的强化学习 (Value-Based Reinforcement Learning) 目录 1. Q函数近似问题 2. 深度Q网络 (DQN) 3. DQN在游戏中的应用 4. 时序差分学习 (TD Learning) 5. 完整算法流程 1. Q函数近似问题 1.1 目标强化学习的最终目标是赢得游戏（等价于最大化总奖励）。 1.2 最优动作如果我们知道最优动作价值函数 Q∗(s,a)Q^*(s, a)Q∗(s,a)，那么在状态 sss 下的最佳动作就是： a∗=arg⁡max⁡aQ∗(s,a)a^* = \arg\max_a Q^*(s, a) a∗=argamaxQ∗(s,a) 这意味着我们应该选择使Q值最大的动作。 1.3 核心挑战问题：我们实际上不知道 Q∗(s,a)Q^*(s, a)Q∗(s,a) 在复杂的游戏环境中（如 Atari 游戏或 Go），状态空间和动作空间都非常庞大，无法用表格形式存储所有的 Q(s,a)Q(s, a)Q(s,a) 值。 1.4 解决方案：深度Q网络核心思想：使用神经网络来近似...

Actor-Critic 方法

发表于2026-04-06|强化学习

Actor-Critic 方法目录 1. 核心思想 2. Actor：策略网络 3. Critic：价值网络 4. 状态价值函数近似 5. 训练流程 6. 更新价值网络：时序差分 7. 更新策略网络：策略梯度 8. 完整算法 9. 带Baseline的策略梯度 10. 概念关系总结 1. 核心思想 Actor-Critic 方法是基于策略的强化学习与基于价值的强化学习的结合体。它同时使用两个神经网络： Actor（演员）：策略网络 π(a∣s;θ)\pi(a|s; \theta)π(a∣s;θ)，负责选择动作 Critic（评论家）：价值网络 q(s,a;w)q(s, a; w)q(s,a;w)，负责评估动作的好坏 Actor 和 Critic 互相配合——Actor 学习如何行动，Critic 学习如何评判；Actor 根据评判结果改进自己的策略。为什么需要 Critic？在纯策略梯度（如 REINFORCE）中，需要玩完整局游戏才能获得 Q 值估计，方差很大。Critic 提供了一个在线的、低方差的 Q 值估计。 2. Actor：策略网络 ...

基于策略的强化学习

发表于2026-04-06|强化学习

基于策略的强化学习 (Policy-Based Reinforcement Learning) 目录 1. 策略网络 2. 状态价值函数近似 3. 策略梯度上升 4. 策略梯度推导 5. 离散动作的策略梯度计算 6. 连续动作的策略梯度计算 7. 完整算法 8. Q值估计方法 1. 策略网络 1.1 核心思想策略网络 (Policy Network) 是一个神经网络，用于直接参数化策略函数 π(a∣s)\pi(a|s)π(a∣s)。 π(a∣s)≈π(a∣s;θ)\pi(a|s) \approx \pi(a|s; \theta) π(a∣s)≈π(a∣s;θ) 其中 θ\thetaθ 是神经网络的可训练参数。 1.2 网络架构策略网络通常包含以下层次： 123456789状态 S_t (图像) ↓卷积层 (Conv) → 提取特征 ↓全连接层 (Dense) ↓Softmax层 → 输出概率分布 ↓动作概率: {"left": 0.2, "right": 0.1,...

蒙特卡洛树搜索

发表于2026-04-06|强化学习

蒙特卡洛树搜索 Monte Carlo Tree Search (MCTS) 目录 1. MCTS 概述 2. Step 1: Selection 选择 3. Step 2: Expansion 扩展 4. Step 3: Evaluation 评估 5. Step 4: Backup 回传 6. MCTS 循环 7. 决策：MCTS 之后的选择 8. 概念关系总结 1. MCTS 概述蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 是一种用于决策的启发式搜索算法，广泛应用于围棋（AlphaGo）、象棋等博弈场景。MCTS 的核心思想是通过反复模拟（simulation）来评估每个可能的动作，逐步构建一棵搜索树。每次模拟的四个步骤 MCTS 的每一次模拟 (simulation) 包含 4 个步骤，循环执行：步骤名称核心任务 1 Selection 选择决定探索哪个动作 2 Expansion 扩展模拟对手的响应，生成新状态 3 Evaluation 评估评估新状态的优劣 4 Backup...

Hello World

发表于2025-03-30

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick Start Create a new post 1$ hexo new "My New Post" More info: Writing Run server 1$ hexo server More info: Server Generate static files 1$ hexo generate More info: Generating Deploy to remote sites 1$ hexo deploy More info: Deployment