RL 学习笔记 #13 直接偏好优化(DPO)理论「强化学习」阅读笔记,本节介绍了 DPO 算法的理论推导(如何绕过显式奖励建模,建立策略和偏好的映射关系),将 DPO 与 PPO 进行了对比,分析了两种算法的局限性。 2025-03-02 学习笔记 > 强化学习 #RL
RL 学习笔记 #12 OpenRLHF-PPO 实践「强化学习」阅读笔记,本节以 OpenRLHF 框架为例,介绍 PPO 算法的代码实现。详解 PPO Trainer 中的参数、循环流程,Model update、Loss function、Experience_maker 等细节。 2025-02-25 学习笔记 > 强化学习 #RL
RL 学习笔记 #11 PPO 在 RLHF 中的应用「强化学习」阅读笔记,本节介绍了 PPO 算法在大模型 RLHF 中的应用,主要介绍了四个模型:策略模型、参考模型、价值模、奖励模型。以 InstructGPT 为例简单梳理了大模型训练的三阶段。最后探讨了 RLHF 相比 SFT 的作用。 2025-02-20 学习笔记 > 强化学习 #RL
RL 学习笔记 #10 近端策略优化(PPO)理论「强化学习」阅读笔记,本节介绍了近端策略优化的理论基础。从朴素 Actor-Critic 的局限性出发,介绍 PPO 的两大改进:GAE 和信赖域(起源于 TRPO),以及两种实现形式:PPO-Penalty 和 PPO-Clip。 2024-12-25 学习笔记 > 强化学习 #RL
OpenAI o3 与 Monte-Carlo 思想2024 年 12 月 21 日,OpenAI 在圣诞 12 天连续直播中压轴发布了 o3 系列模型的评测结果,本文再次分享一些有趣的看法。 2024-12-21 论文阅读 > 前沿热点 #LLMs
RL 学习笔记 #09 Actor-Critic 方法「强化学习」课程笔记,本节介绍了 Actor-Critic 方法,包括最基础的基于动作价值的 QAC,引入优势函数减少方差的 A2C,引入重要性采样的 Off-Policy AC,以及适用于连续动作空间的确定性 DPG。 2024-12-20 学习笔记 > 强化学习 #RL
RL 学习笔记 #08 策略梯度方法「强化学习」课程笔记,本节介绍了策略梯度方法。我们先从 Policy-based 的角度介绍了策略梯度的目标函数 Average Value 和 Average Reward,再介绍其梯度的计算,最后介绍了基于蒙特卡洛估计的 REINFORCE 算法。 2024-12-16 学习笔记 > 强化学习 #RL
RL 学习笔记 #07 值函数近似和 DQN 算法「强化学习」课程笔记,本节介绍了值函数近似,包括目标函数、优化算法、及其在 SARSA 和 Q-Learning 中的应用。此外,还介绍了著名的 Deep Q-Network 算法,包括目标网络、经验回放等细节。 2024-12-14 学习笔记 > 强化学习 #RL
RL 学习笔记 #06 时序差分学习算法「强化学习」课程笔记,本节介绍了时序差分学习(TD Learning),包括最基础的求解动作价值的方法、求解动作价值的 SARSA 算法及其两种变体、求解最优动作价值的 Q-Learning 算法。本节还重点对比了 On-Policy 和 Off-Policy 算法。 2024-12-06 学习笔记 > 强化学习 #RL
RL 学习笔记 #05 随机近似与随机梯度下降「强化学习」课程笔记,在进一步讨论其他无模型算法之前,本节首先来了解一下随机近似理论、Robbins-Monro (RM) 算法、随机梯度下降(SGD)算法。 2024-12-05 学习笔记 > 强化学习 #RL
RL 学习笔记 #04 蒙特卡洛学习算法「强化学习」课程笔记,本文介绍了蒙特卡洛学习算法:包括 MC Basic 思想、改进效率的 MC Exploring Starts、以及引入软策略的 MC Epsilon-Greedy 策略。 2024-12-04 学习笔记 > 强化学习 #RL
RL 学习笔记 #03 值迭代和策略迭代「强化学习」课程笔记,本文介绍了 BOE 的三种求解算法:值迭代(Value Iteration),策略迭代(Policy Iteration),和它们的一般化推广:截断策略迭代(Truncated Policy Iteration)。 2024-12-03 学习笔记 > 强化学习 #RL
RL 学习笔记 #02 贝尔曼公式「强化学习」课程笔记,本文介绍了贝尔曼公式(Bellman Equation)相关概念,包括状态值、动作值和策略评估。还介绍了贝尔曼最优公式(BOE),以及其求解过程,包括收缩映射、不动点等概念。 2024-11-29 学习笔记 > 强化学习 #RL
RL 学习笔记 #01 基本概念「强化学习」课程笔记,本文介绍 RL 基本概念,包括:强化学习和监督学习的对比、序列决策过程(MDP、POMDP),以及一些经典问题。 2024-11-28 学习笔记 > 强化学习 #RL