标签 - RL | Hwcoder - Life Oriented Programming

共计 13 篇文章

2025

RL 学习笔记 #13 直接偏好优化（DPO）理论

RL 学习笔记 #12 OpenRLHF-PPO 实践

RL 学习笔记 #11 PPO 在 RLHF 中的应用

2024

RL 学习笔记 #10 近端策略优化（PPO）理论

RL 学习笔记 #09 Actor-Critic 方法

RL 学习笔记 #08 策略梯度方法

RL 学习笔记 #07 值函数近似和 DQN 算法

RL 学习笔记 #06 时序差分学习算法

RL 学习笔记 #05 随机近似与随机梯度下降

RL 学习笔记 #04 蒙特卡洛学习算法

RL 学习笔记 #03 值迭代和策略迭代

RL 学习笔记 #02 贝尔曼公式

RL 学习笔记 #01 基本概念