Hwcoder
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

共计 46 篇文章


2025

03-02
RL 学习笔记 #13 直接偏好优化(DPO)理论
02-25
RL 学习笔记 #12 OpenRLHF-PPO 实践
02-20
RL 学习笔记 #11 PPO 在 RLHF 中的应用

2024

12-25
RL 学习笔记 #10 近端策略优化(PPO)理论
12-20
RL 学习笔记 #09 Actor-Critic 方法
12-16
RL 学习笔记 #08 策略梯度方法
12-14
RL 学习笔记 #07 值函数近似和 DQN 算法
12-06
RL 学习笔记 #06 时序差分学习算法
12-05
RL 学习笔记 #05 随机近似与随机梯度下降
12-04
RL 学习笔记 #04 蒙特卡洛学习算法
12-03
RL 学习笔记 #03 值迭代和策略迭代
11-29
RL 学习笔记 #02 贝尔曼公式
11-28
RL 学习笔记 #01 基本概念

2022

03-21
ML学习笔记 #13 协同过滤推荐算法
03-15
ML学习笔记 #12 异常检测
1234

搜索

Hexo Fluid
总访问量 次 总访客数 人