PR学习笔记 #3 概率密度:参数估计

本文最后更新于:2022年6月27日 晚上

在前文的 贝叶斯分类器 中,我们简单介绍了先验概率 \(P\left( \omega ^{\left( j \right)} \right)\) 和似然概率 \(P\left( x \mid \omega ^{\left( j \right)} \right)\) 的估计方法。

其中似然概率,也称为类条件概率密度(Class Conditional Probability Density),即分布取决于类别状态的一种概率密度。

抛开「类别」不谈,「似然概率的估计」其实就是一个「概率密度的估计」问题。下面我们将介绍,对于连续取值的 \(x\),如何刻画一个已知形式的概率密度函数。

参数估计 | Parameter Estimation

参数估计是在概率密度的形式已知(假设其服从某种分布)的情况下,根据样本点 \(X_1,X_2,\cdots,X_n\) 推断出其中未知参数 \(\theta\) 的过程。

用来估计未知参数 \(\theta\)统计量 \(\hat{\theta}=\hat{\theta}\left(X_{1}, X_{2}, \cdots, X_{n}\right)\) 称为 \(\theta\)点估计(Point Estimation),如果只是估计 \(\theta\) 的取值范围,也称区间估计(Interval Estimation)。

在贝叶斯分类器中,每个类别都有自己对应的似然概率,因此每个类别都需要估计其概率密度函数(包括 \(x\) 离散和连续的情形,本节只介绍连续情形,离散同理)。

此外,在有限数目的样本中,样本所属的类别还可能是未知的,即无监督估计,本节也不加以讨论。

下面我们以一维正态分布 \(N(\mu,\sigma^2)\) 的参数估计为例,介绍三种方法:矩估计、极大似然估计、贝叶斯估计。

对于高维的 \(X\),即当每个样本有多个特征时,可以分别求出各个特征的似然概率,再朴素地相乘得到 \(X\) 的似然概率;也可以假设其符合高维正态分布\[ P\left( X\mid \omega ^{\left( j \right)} \right) =\frac{1}{(2\pi )^{\frac{d}{2}}|\mathbf{\Sigma }|^{\frac{1}{2}}}\exp \left[ -\frac{1}{2}(X-\mu )^T\mathbf{\Sigma }^{-1}(X-\mu ) \right] \]

其中 \(\mathbf{\Sigma }\) 代表协方差矩阵,一个对称矩阵,对角线外的元素表示了 \(X\) 的各列分量之间的协方差(线性相关程度),决定了高维正态分布的形状。

矩估计 | Moment Estimation

矩估计是最原始最直观的估计方法,首先介绍有关「矩」的两组定义:

\(X\) 为随机变量,\(k\) 为整数,设 \(\mathbb{E} X^{k}\)\(\mathbb{E}(X-\mathbb{E} X)^{k}\) 存在且有限,则我们分别称 \[ \mu_{k}=\mathbb{E} X^{k}, \quad \sigma_{k}=\mathbb{E}(X-\mathbb{E} X)^{k} \]\(X\)\(k\) 阶总体(原点) 矩,\(k\) 阶总体中心矩。

\(X_{1}, X_{2}, \ldots, X_{n}\) 为总体 \(X\) 的一个样本,\(k\) 为整数,则我们分别称 \[ A_{k}=\frac{1}{n} \sum_{i=1}^{n} X^{k}, \quad B_{k}=\frac{1}{n} \sum_{i=1}^{n}(X-\bar{X})^{k} \]\(X\)\(k\) 阶样本 (原点) 矩,\(k\) 阶样本中心矩。

我们知道当 \(X\) 的概率密度函数为 \(f(x,\theta)\) 时,\(k\) 阶总体矩可以由参数决定: \[ \mu_{k}=\mathbb{E} X^{k}=\int x^{k} f(x, \theta) d x \] 反之,通常参数 \(\theta\) 也可以表示为各阶总体矩 \(\mu_k\) 的函数,而根据大数定律,样本矩 \(A_k\) 依概率收敛于总体矩 \(\mu_{k}\)。因此参数可以用各阶样本矩来估计: \[ \hat{\theta}_{n}:=\theta\left(A_{1}, A_{2}, \cdots, A_{m}\right) \] ### 正态分布的矩估计

现在回到正态分布 \(N(\mu,\sigma^2)\) 的问题,注意到总体矩: \[ \mu_{1}=\mathbb{E} X=\mu, \quad \mu_{2}=\mathbb{E} X^{2}=\mu_{1}^{2}+\sigma^{2} \] 提出参数 \(\mu\)\(\sigma\)用样本矩代替总体矩,可以得到参数的矩估计量为: \[ \begin{aligned} \hat{\mu}&=A_{1}=\bar{X} \\ \hat{\sigma}^{2}&=A_{2}-A_{1}^{2}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} \end{aligned} \]

极大似然估计 | Maximum Likelihood Estimation

极大似然估计的思想:参数 \(\theta\) 应是使得事件组最容易发生的值。因此对于已发生的事件组 \((X_1,X_2,\cdots,X_n)=(x_1,x_2,\cdots,x_n)\),我们知道其发生的联合概率函数为: \[ \prod_{i=1}^{n} f\left(x_{i}, \theta\right) \] 而我们要做的就是找出参数 \(\theta\),使得上述概率最大化。因此我们将之看作 \(\theta\) 的函数,称之为极大似然函数\[ L(\theta) = \prod_{i=1}^{n} f\left(x_{i}, \theta\right) \] 要求上式的极大值点,我们考虑其对数形式简化计算: \[ l(\theta)=\ln L(\theta)=\sum_{i=1}^{n} \ln f\left(x_{i}, \theta\right) \] 此时,我们可以用微积分方法求极值,即考虑求解极大似然方程\[ \frac{\partial \ln l}{\partial \theta}=0 \] ### 正态分布的极大似然估计

现在回到正态分布 \(N(\mu,\sigma^2)\) 的问题,其似然函数为: \[ \begin{aligned} L\left(\mu, \sigma^{2}\right) &=\prod_{i=1}^{n}\left[\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)\right] \\ &=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} \exp \left(-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}\right) \end{aligned} \] 考虑 \(L\) 的对数,有: \[ \ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln \left(2 \pi \sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} \] 于是,似然方程组为: \[ \left\{\begin{array}{l} \begin{aligned} \frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)=0 \end{aligned}\\ \begin{aligned} \frac{\partial \ln L}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0 \end{aligned} \end{array}\right. \] 解得: \[ \begin{aligned} &\hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x} \\ &\hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \end{aligned} \]

贝叶斯估计 | Bayes Estimation

贝叶斯估计的思想:将未知参数当作随机变量,不关注其值为多少,而是对其取值赋予相应的概率。如贝叶斯分类一般,我们首先假设参数 \(\theta\) 在其取值空间 $$ 上具有先验分布 $( ) $。

再从其样本集 \(X\) 中得到样本联合分布(似然分布): \[ \rho \left( X\mid \theta \right) =\prod_{i=1}^n{\rho \left( x_i\mid \theta \right)}=\prod_{i=1}^n{f\left( x_i,\theta \right)} \] > 注:这里好像有点循环论证的感觉了?但此时的似然分布用的是条件独立的概率乘法公式求得。

根据贝叶斯公式可以计算后验分布\[ \rho (\theta \mid X)=\frac{\rho (X\mid \theta )\rho (\theta )}{\int_{\Theta}{\rho}(X\mid \theta )\rho (\theta )\mathrm{d}\theta}=\frac{\prod_{i=1}^n{\rho}\left( x_i\mid \theta \right) \rho (\theta )}{\int_{\Theta}{\prod_{i=1}^n{\rho}}\left( x_i\mid \theta \right) \rho (\theta )\mathrm{d}\theta} \] 此后,我们可将 $arg{ ( X ) } $ 作为参数估计,也可借鉴最小风险的思想,假设决策的损失函数为 $( ,) $,定义样本 \(x\) 下的条件风险\[ R(\hat{\theta} \mid x)=\int_{\Theta} \lambda(\hat{\theta}, \theta) \rho(\theta \mid x)\mathrm{d}\theta \] 那么,当样本 \(x\) 取遍样本空间 \(E^d\) 时,其总体期望风险为: \[ R=\int_{E^{d}} R(\hat{\theta} \mid x) \rho(x) \mathrm{d}x \] 但是实际中我们无法取遍 \(E^d\),只能对已有样本 \(X=(x_1,x_2,\cdots,x_n)\) 求其条件风险的最小化,即: \[ \theta^{*}=\arg \min _{\hat{\theta}} R(\hat{\theta} \mid X)=\arg \min _{\hat{\theta}} \int_{\Theta} \lambda(\hat{\theta}, \theta) \rho(\theta \mid X) \mathrm{d}\theta \] 在决策分类时,需要事先定义代价表,而在连续情况下,需要定义代价函数。最常用的则是平方误差代价函数,即: \[ \lambda(\hat{\theta}, \theta)=(\theta-\hat{\theta})^{2} \] 经一系列计算可得,当参数估计量 \(\theta^{*}\) 为样本下 \(\theta\) 的条件期望时,代价最小,即: \[ \theta^{*}=\mathbb{E}\left[ \theta \mid X \right] =\int_{\Theta} \theta \rho(\theta \mid X) \mathrm{d}\theta \]

贝叶斯估计较为复杂,就不展开论证正态分布的贝叶斯估计了,感兴趣的读者可以查阅这篇 博客文章。这里给出结论:当样本数目趋于无穷多时,贝叶斯估计的结果与极大似然估计相同。


PR学习笔记 #3 概率密度:参数估计
https://hwcoder.top/PR-Note-3
作者
Wei He
发布于
2021年10月11日
许可协议