共计 94 篇文章
2024
OpenAI o3 与 Monte-Carlo 思想
RL 学习笔记 #9 Actor-Critic 方法
RL 学习笔记 #8 策略梯度方法
RL 学习笔记 #7 值函数近似和 DQN 算法
RL 学习笔记 #6 时序差分学习算法
RL 学习笔记 #5 随机近似与随机梯度下降
RL 学习笔记 #4 蒙特卡洛学习算法
RL 学习笔记 #3 值迭代和策略迭代
RL 学习笔记 #2 贝尔曼公式
RL 学习笔记 #1 基本概念
常用 Prompt 合集
OpenAI o1 系列模型背后的技术猜测
手撕经典算法 #3 Transformer篇
手撕经典算法 #2 神经网络篇
手撕经典算法 #1 Attention篇