归档 | Hwcoder - Life Oriented Programming

共计 102 篇文章

2025

从近期开源模型看工具调用格式的分化

手撕经典算法 #6 RLHF篇

RL 学习笔记 #13 直接偏好优化（DPO）理论

RL 学习笔记 #12 OpenRLHF-PPO 实践

RL 学习笔记 #11 PPO 在 RLHF 中的应用

2024

RL 学习笔记 #10 近端策略优化（PPO）理论

OpenAI o3 与 Monte-Carlo 思想

RL 学习笔记 #09 Actor-Critic 方法

RL 学习笔记 #08 策略梯度方法

RL 学习笔记 #07 值函数近似和 DQN 算法

RL 学习笔记 #06 时序差分学习算法

RL 学习笔记 #05 随机近似与随机梯度下降

RL 学习笔记 #04 蒙特卡洛学习算法

RL 学习笔记 #03 值迭代和策略迭代

RL 学习笔记 #02 贝尔曼公式