Hwcoder - Life Oriented Programming

从近期开源模型看工具调用格式的分化

从近期开源模型看工具调用格式的分化

与趋于一致的推理格式不同，各家开源模型（Qwen3/GLM-4.5/DS-V3.1 等）的工具调用格式却显现出了分化的趋势。而正确使用工具调用格式是入门 Agent SFT 或 RL 训练的第一步，因此本文整理了一些近期开源模型的工具调用格式。

2025-08-28

论文阅读 > 前沿热点

手撕经典算法 #6 RLHF篇

手撕经典算法 #6 RLHF篇

准备面试过程中的笔记，本系列将记录了一系列经典算法的（伪）代码实现。本文实现了 PPO 中的广义优势估计 GAE、不同算法的 Loss 函数（PPO、DPO、GRPO）。

2025-03-20

算法笔记 > 手撕经典算法

#Algorithm #NLP

RL 学习笔记 #13 直接偏好优化（DPO）理论

RL 学习笔记 #13 直接偏好优化（DPO）理论

「强化学习」阅读笔记，本节介绍了 DPO 算法的理论推导（如何绕过显式奖励建模，建立策略和偏好的映射关系），将 DPO 与 PPO 进行了对比，分析了两种算法的局限性。

2025-03-02

学习笔记 > 强化学习

RL 学习笔记 #12 OpenRLHF-PPO 实践

RL 学习笔记 #12 OpenRLHF-PPO 实践

「强化学习」阅读笔记，本节以 OpenRLHF 框架为例，介绍 PPO 算法的代码实现。详解 PPO Trainer 中的参数、循环流程，Model update、Loss function、Experience_maker 等细节。

2025-02-25

学习笔记 > 强化学习

RL 学习笔记 #11 PPO 在 RLHF 中的应用

RL 学习笔记 #11 PPO 在 RLHF 中的应用

「强化学习」阅读笔记，本节介绍了 PPO 算法在大模型 RLHF 中的应用，主要介绍了四个模型：策略模型、参考模型、价值模、奖励模型。以 InstructGPT 为例简单梳理了大模型训练的三阶段。最后探讨了 RLHF 相比 SFT 的作用。

2025-02-20

学习笔记 > 强化学习

RL 学习笔记 #10 近端策略优化（PPO）理论

RL 学习笔记 #10 近端策略优化（PPO）理论

「强化学习」阅读笔记，本节介绍了近端策略优化的理论基础。从朴素 Actor-Critic 的局限性出发，介绍 PPO 的两大改进：GAE 和信赖域（起源于 TRPO），以及两种实现形式：PPO-Penalty 和 PPO-Clip。

2024-12-25

学习笔记 > 强化学习

OpenAI o3 与 Monte-Carlo 思想

OpenAI o3 与 Monte-Carlo 思想

2024 年 12 月 21 日，OpenAI 在圣诞 12 天连续直播中压轴发布了 o3 系列模型的评测结果，本文再次分享一些有趣的看法。

2024-12-21

论文阅读 > 前沿热点

RL 学习笔记 #09 Actor-Critic 方法

RL 学习笔记 #09 Actor-Critic 方法

「强化学习」课程笔记，本节介绍了 Actor-Critic 方法，包括最基础的基于动作价值的 QAC，引入优势函数减少方差的 A2C，引入重要性采样的 Off-Policy AC，以及适用于连续动作空间的确定性 DPG。

2024-12-20

学习笔记 > 强化学习

RL 学习笔记 #08 策略梯度方法

RL 学习笔记 #08 策略梯度方法

「强化学习」课程笔记，本节介绍了策略梯度方法。我们先从 Policy-based 的角度介绍了策略梯度的目标函数 Average Value 和 Average Reward，再介绍其梯度的计算，最后介绍了基于蒙特卡洛估计的 REINFORCE 算法。

2024-12-16

学习笔记 > 强化学习

RL 学习笔记 #07 值函数近似和 DQN 算法

RL 学习笔记 #07 值函数近似和 DQN 算法

「强化学习」课程笔记，本节介绍了值函数近似，包括目标函数、优化算法、及其在 SARSA 和 Q-Learning 中的应用。此外，还介绍了著名的 Deep Q-Network 算法，包括目标网络、经验回放等细节。

2024-12-14

学习笔记 > 强化学习

RL 学习笔记 #06 时序差分学习算法

RL 学习笔记 #06 时序差分学习算法

「强化学习」课程笔记，本节介绍了时序差分学习（TD Learning），包括最基础的求解动作价值的方法、求解动作价值的 SARSA 算法及其两种变体、求解最优动作价值的 Q-Learning 算法。本节还重点对比了 On-Policy 和 Off-Policy 算法。

2024-12-06

学习笔记 > 强化学习

RL 学习笔记 #05 随机近似与随机梯度下降

RL 学习笔记 #05 随机近似与随机梯度下降

「强化学习」课程笔记，在进一步讨论其他无模型算法之前，本节首先来了解一下随机近似理论、Robbins-Monro (RM) 算法、随机梯度下降（SGD）算法。

2024-12-05

学习笔记 > 强化学习

RL 学习笔记 #04 蒙特卡洛学习算法

RL 学习笔记 #04 蒙特卡洛学习算法

「强化学习」课程笔记，本文介绍了蒙特卡洛学习算法：包括 MC Basic 思想、改进效率的 MC Exploring Starts、以及引入软策略的 MC Epsilon-Greedy 策略。

2024-12-04

学习笔记 > 强化学习

RL 学习笔记 #03 值迭代和策略迭代

RL 学习笔记 #03 值迭代和策略迭代

「强化学习」课程笔记，本文介绍了 BOE 的三种求解算法：值迭代（Value Iteration），策略迭代（Policy Iteration），和它们的一般化推广：截断策略迭代（Truncated Policy Iteration）。

2024-12-03

学习笔记 > 强化学习

RL 学习笔记 #02 贝尔曼公式

RL 学习笔记 #02 贝尔曼公式

「强化学习」课程笔记，本文介绍了贝尔曼公式（Bellman Equation）相关概念，包括状态值、动作值和策略评估。还介绍了贝尔曼最优公式（BOE），以及其求解过程，包括收缩映射、不动点等概念。

2024-11-29

学习笔记 > 强化学习