学习笔记 46
强化学习 13
RL 学习笔记 #13 直接偏好优化(DPO)理论 RL 学习笔记 #12 OpenRLHF-PPO 实践 RL 学习笔记 #11 PPO 在 RLHF 中的应用 RL 学习笔记 #10 近端策略优化(PPO)理论 RL 学习笔记 #09 Actor-Critic 方法 RL 学习笔记 #08 策略梯度方法 RL 学习笔记 #07 值函数近似和 DQN 算法 RL 学习笔记 #06 时序差分学习算法 RL 学习笔记 #05 随机近似与随机梯度下降 RL 学习笔记 #04 蒙特卡洛学习算法 RL 学习笔记 #03 值迭代和策略迭代 RL 学习笔记 #02 贝尔曼公式 RL 学习笔记 #01 基本概念