OpenAI o3 与 Monte-Carlo 思想2024 年 12 月 21 日,OpenAI 在圣诞 12 天连续直播中压轴发布了 o3 系列模型的评测结果,本文再次分享一些有趣的看法。 2024-12-21 论文阅读 > 前沿热点 #LLMs
RL 学习笔记 #9 Actor-Critic 方法「强化学习」课程笔记,本节介绍了 Actor-Critic 方法,包括最基础的基于动作价值的 QAC,引入优势函数减少方差的 A2C,引入重要性采样的 Off-Policy AC,以及适用于连续动作空间的确定性 DPG。 2024-12-20 学习笔记 > 强化学习 #RL
RL 学习笔记 #8 策略梯度方法「强化学习」课程笔记,本节介绍了策略梯度方法。我们先从 Policy-based 的角度介绍了策略梯度的目标函数 Average Value 和 Average Reward,再介绍其梯度的计算,最后介绍了基于蒙特卡洛估计的 REINFORCE 算法。 2024-12-16 学习笔记 > 强化学习 #RL
RL 学习笔记 #7 值函数近似和 DQN 算法「强化学习」课程笔记,本节介绍了值函数近似,包括目标函数、优化算法、及其在 SARSA 和 Q-Learning 中的应用。此外,还介绍了著名的 Deep Q-Network 算法,包括目标网络、经验回放等细节。 2024-12-14 学习笔记 > 强化学习 #RL
RL 学习笔记 #6 时序差分学习算法「强化学习」课程笔记,本节介绍了时序差分学习(TD Learning),包括最基础的求解动作价值的方法、求解动作价值的 SARSA 算法及其两种变体、求解最优动作价值的 Q-Learning 算法。本节还重点对比了 On-Policy 和 Off-Policy 算法。 2024-12-06 学习笔记 > 强化学习 #RL
RL 学习笔记 #5 随机近似与随机梯度下降「强化学习」课程笔记,在进一步讨论其他无模型算法之前,本节首先来了解一下随机近似理论、Robbins-Monro (RM) 算法、随机梯度下降(SGD)算法。 2024-12-05 学习笔记 > 强化学习 #RL
RL 学习笔记 #4 蒙特卡洛学习算法「强化学习」课程笔记,本文介绍了蒙特卡洛学习算法:包括 MC Basic 思想、改进效率的 MC Exploring Starts、以及引入软策略的 MC Epsilon-Greedy 策略。 2024-12-04 学习笔记 > 强化学习 #RL
RL 学习笔记 #3 值迭代和策略迭代「强化学习」课程笔记,本文介绍了 BOE 的三种求解算法:值迭代(Value Iteration),策略迭代(Policy Iteration),和它们的一般化推广:截断策略迭代(Truncated Policy Iteration)。 2024-12-03 学习笔记 > 强化学习 #RL
RL 学习笔记 #2 贝尔曼公式「强化学习」课程笔记,本文介绍了贝尔曼公式(Bellman Equation)相关概念,包括状态值、动作值和策略评估。还介绍了贝尔曼最优公式(BOE),以及其求解过程,包括收缩映射、不动点等概念。 2024-11-29 学习笔记 > 强化学习 #RL
RL 学习笔记 #1 基本概念「强化学习」课程笔记,本文介绍 RL 基本概念,包括:强化学习和监督学习的对比、序列决策过程(MDP、POMDP),以及一些经典问题。 2024-11-28 学习笔记 > 强化学习 #RL
OpenAI o1 系列模型背后的技术猜测2024 年 9 月 12 日,OpenAI 发布了最新的 o1 系列模型,在推理要求高的复杂任务上远超此前的 GPT-4o。本文根据一些已有的现象,猜测一下 OpenAI o1 背后的技术原理。 2024-09-13 论文阅读 > 前沿热点 #LLMs
手撕经典算法 #3 Transformer篇准备面试过程中的笔记,本系列将记录了一系列经典算法的(伪)代码实现。本文介绍了 Transformer 的构成,在前面两章的基础上搭建完整的 Transformer 模型。 2024-07-08 算法笔记 > 手撕经典算法 #NLP #Algorithm
手撕经典算法 #2 神经网络篇准备面试过程中的笔记,本系列将记录了一系列经典算法的(伪)代码实现。本文介绍了常见的神经网络模块,包含 LayerNorm、BatchNorm 和 Dropout。 2024-07-07 算法笔记 > 手撕经典算法 #NLP #Algorithm
手撕经典算法 #1 Attention篇准备面试过程中的笔记,本系列将记录了一系列经典算法的(伪)代码实现。本文介绍了常见的集中注意力机制,包括 SDPA、MHA、MQA、GQA 和 MLA(未完待续)。 2024-07-06 算法笔记 > 手撕经典算法 #NLP #Algorithm