共计 13 篇文章
2025
RL 学习笔记 #13 直接偏好优化(DPO)理论
RL 学习笔记 #12 OpenRLHF-PPO 实践
RL 学习笔记 #11 PPO 在 RLHF 中的应用
2024
RL 学习笔记 #10 近端策略优化(PPO)理论
RL 学习笔记 #09 Actor-Critic 方法
RL 学习笔记 #08 策略梯度方法
RL 学习笔记 #07 值函数近似和 DQN 算法
RL 学习笔记 #06 时序差分学习算法
RL 学习笔记 #05 随机近似与随机梯度下降
RL 学习笔记 #04 蒙特卡洛学习算法
RL 学习笔记 #03 值迭代和策略迭代
RL 学习笔记 #02 贝尔曼公式
RL 学习笔记 #01 基本概念