RL 学习笔记 #4 蒙特卡洛学习算法「强化学习」课程笔记,本文介绍了蒙特卡洛学习算法:包括 MC Basic 思想、改进效率的 MC Exploring Starts、以及引入软策略的 MC Epsilon-Greedy 策略。 2024-12-04 学习笔记 > 强化学习 #RL
RL 学习笔记 #3 值迭代和策略迭代「强化学习」课程笔记,本文介绍了 BOE 的三种求解算法:值迭代(Value Iteration),策略迭代(Policy Iteration),和它们的一般化推广:截断策略迭代(Truncated Policy Iteration)。 2024-12-03 学习笔记 > 强化学习 #RL
RL 学习笔记 #2 贝尔曼公式「强化学习」课程笔记,本文介绍了贝尔曼公式(Bellman Equation)相关概念,包括状态值、动作值和策略评估。还介绍了贝尔曼最优公式(BOE),以及其求解过程,包括收缩映射、不动点等概念。 2024-11-29 学习笔记 > 强化学习 #RL
RL 学习笔记 #1 基本概念「强化学习」课程笔记,本文介绍 RL 基本概念,包括:强化学习和监督学习的对比、序列决策过程(MDP、POMDP),以及一些经典问题。 2024-11-28 学习笔记 > 强化学习 #RL
OpenAI o1 系列模型背后的技术猜测2024 年 9 月 12 日,OpenAI 发布了最新的 o1 系列模型,在推理要求高的复杂任务上远超此前的 GPT-4o。本文根据一些已有的现象,猜测一下 OpenAI o1 背后的技术原理。 2024-09-13 论文阅读 > 前沿热点 #LLMs
手撕经典算法 #3 Transformer篇准备面试过程中的笔记,本系列将记录了一系列经典算法的(伪)代码实现。本文介绍了 Transformer 的构成,在前面两章的基础上搭建完整的 Transformer 模型。 2024-07-08 算法笔记 > 手撕经典算法 #NLP #Algorithm
手撕经典算法 #2 神经网络篇准备面试过程中的笔记,本系列将记录了一系列经典算法的(伪)代码实现。本文介绍了常见的神经网络模块,包含 LayerNorm、BatchNorm 和 Dropout。 2024-07-07 算法笔记 > 手撕经典算法 #NLP #Algorithm
手撕经典算法 #1 Attention篇准备面试过程中的笔记,本系列将记录了一系列经典算法的(伪)代码实现。本文介绍了常见的集中注意力机制,包括 SDPA、MHA、MQA、GQA 和 MLA(未完待续)。 2024-07-06 算法笔记 > 手撕经典算法 #NLP #Algorithm
Docker学习笔记 #2 常用命令学习 Docker 时做的笔记,本章主要介绍 Docker 的常用命令,包括:服务认证、管理镜像与容器、管理数据与网络,还介绍了类似的容器管理工具 Buildah。 2023-07-07 技术经验 > Docker #Docker
Docker学习笔记 #1 基本概念与原理学习 Docker 时做的笔记,本章主要介绍一些 Docker 的基本概念:镜像、容器和仓库等,还简单介绍了 Docker 的原理。 2023-07-05 技术经验 > Docker #Docker
Vim学习笔记 #1 基础操作与配置学习 Vim 时做的笔记,主要内容包括:基础操作(打开与退出、模式介绍、光标移动、快速删除修改、查找替换)、高级操作(多文件操作、文本对象、复制粘贴、代码补全)、配置文件(基础配置、按键映射)。 2023-04-11 技术经验 > Vim #Vim
Zotero使用技巧:坚果云同步、常用插件使用坚果云辅助 Zotero 进行云同步的教程,顺便介绍常用的 Zotero 第三方插件:ZotFile、Zotero Better Notes、Zotero PDF Translate 等。 2023-03-29 技术经验 > Zotero #Zotero
PyTorch笔记 #2 神经网络学习 PyTorch 时做的笔记,介绍了使用 PyTorch 搭建神经网络的完整流程,分别是:数据加载、模型搭建、训练阶段、评估阶段、模型保存与加载。本文将持续更新。 2022-12-15 技术经验 > PyTorch #Python #PyTorch #DL
PyTorch笔记 #1 基础操作学习 PyTorch 时做的笔记,介绍了基础的语法,包括 Tensor 的属性、构造、基本操作,以及常用的数学函数。最后介绍了 Autograd 自动微分的原理。本文将持续更新。 2022-11-10 技术经验 > PyTorch #Python #PyTorch #DL