【模式识别|模式识别概率密度估计】概率|密度|估计-学习资料

按关键词阅读： 概率模式识别估计密度

1、北京工业大学计算机学院1 第三章概率密度函数的估计 .北京工业大学计算机学院2 前一章我们讨论了各种决策规则，在设计分类器时，总是假定先验概率和类条件密度函数是已知的。
在实际工作中，先验概率和类条件密度函数都可能未知。
需要利用样本设计分类器。
.北京工业大学计算机学院3 利用样本设计分类器的方法有两种：从样本中估计先验概率和类条件密度函数，然而按前一章的方法 2）不作估计，直接利用样本设计分类器在用第一种方法时，需要从收集的样本中去估计先验概率和类条件密度函数。
这就要用到估计理论。
讨论如何估计（估计的方法），估计的好坏、性质。
.北京工业大学计算机学院4 从样本中估。

2、计概率密度函数时，有以下一些情况：概率密度估计参数估计 (分布形式已知, 但参数要估计) 非参数估计(分布形式未知,直接估计密度函数) 有监督的参数估计(样本类别已知) 无监督的参数估计(样本类别未知) 最大似然估计 (把待估参数看作是确定的) 贝叶斯估计(把待估参数看作是随机的) Parzen窗估计 KN近邻估计 KN近邻分类法 .北京工业大学计算机学院5 参数估计中的一些基本概念：统计量：针对不同的要求所构造的样本的函数，包含了总体的信息；参数空间：未知参数全部可允许值的集合；点估计：构造一个统计量作为待估参数的值，即估计参数值；区间估计：估计待估。

3、参数可能取值的区间。
.北京工业大学计算机学院6 3.1 常数参数的估计一般要估计的参数可能是标量、向量、矩阵。
不失一般性，假定待估参数是向量。
在最大似然估计中，把待估参数看作是确定的常数。
而贝叶斯估计则把看作是随机变量，它的先验密度是已知的。
.北京工业大学计算机学院7 一. 最大似然估计令是随机向量x的密度函数中的向量参数（其分量是标量）。
记x的密度函数为，令是观测x所得到的N个样本。
在估计问题中，这些样本本身也是随机变量，可以用一个联合密度函数表示。
假定这些样本是独立的。
是的函数。
它是的似然函数。
T L，21 ；xp N xxx 。

4、，21 ；，N pxxx 21 N xxx ，21 ；，N pxxx 21 N xxx ，21 .北京工业大学计算机学院8 只要导数存在，使似然函数最大的可以通过解下面的似然方程或对数似然方程得到： 0 21 ；，N pxxx 0 ln 21 ；，N pxxx 的最大似然估计是，在N个观测样本的基础上，选择这样的，它使似然函数最大。
换句话说，选择的应使落在（样本）的附近小区域内最大。
(当均匀分布时，发生概率最大) N i xN i x N个观测样本 .北京工业大学计算机学院9 由于对数函数是单调增的，所以这两个方程完全是等价的。
用时哪个方便，就用哪个。
例例。

5、1 1：计算机通道输出请求出现率的估计假定计算机的某一通道输出请求的时间间隔T按如下的指数函数分布：其它 0 0 Te Tp T 假定观察了N+1个请求，间隔时间为，希望估计参数的大小（称为到达率） N TTT ，21 .北京工业大学计算机学院10 解解：输出请求间的间隔假定为独立的。
似然函数（联合密度函数）为而；，N TTTp 21 N i i i T N N i T ee 1 1 0ln 1 N i i TN （对数似然方程） N i i N i i N T N T N 1 1 1 1 .北京工业大学计算机学院11 例例2 2：多元正态密度函数均值的估计。
（上面的例子。

6、估计了一个标量参数，本例估计一个向量参数。
）已知随机变量x是正态分布的，协方差矩阵 K已知，均值m未知。
给出N个样本x(1)，x(2)， x(N)，求均值的最大似然估计。
解解：似然函数是样本的联合密度函数 mxxx；，N p 21 N i i T i n K K 1 1 2 1 2 mxmx 2 1 2 1 -exp .北京工业大学计算机学院12 对数似然函数为样本联合密度函数的对数： mxxx 21 ；，N pln N i i T i KK n 1 1 mxmx2 2 1 ln 2 1 ln 2 - 将上式对m求导并令它等于0 ，有 N i i N K p 1 1 21 0mx 。

7、 m mxxx；， ln K是一个常数矩阵 N i i N N 1 1 xm 即均值的最大似然估计等于样本均值。
.北京工业大学计算机学院13 例例3 3：已知x服从均匀分布似然函数为解解：给出了N个样本x(1)， x(2)， x(N) 在用求导数的方法解似然方程时（求极值），有时可能遇到一些问题：有多个极值点；或没有极值点。
下面看一个例子。
其它； 0 1 21 12 x xp 2 1 N N p 12 21 1 ；， xxx .北京工业大学计算机学院14 对数似然函数为欲使上两式等于0 ，必须无穷大才行。
而因为不能大于最小的样本值不能小于最大的样本值 12 21 lnln 。

8、Np N ；， xxx 121 21 ln Np N ；， xxx 122 21 ln Np N ；， xxx 12 1 x 2 x .北京工业大学计算机学院15 同时为使似然函数最大，要最小，而最小的可能值是。
，（似然函数在最大值的地方没有零斜率） 12 x x x 2 x 1 .北京工业大学计算机学院16 二. 估计量的性质估计量的性质（注意语言中的断句、分词）（注意语言中的断句、分词）参数的一个估计量是样本的函数：所以估计量本身也是一个随机向量。
因此可以在统计的意义上描述它的性质，建立评价“估计好坏” 的标准。
N NN xxx，21 无偏性（unbiased）若。

9、，则称是无偏的，否则称为有偏的。
N E N 若，则称是渐进无偏的。
N N E lim N .北京工业大学计算机学院17 一致性（consistent）若对任意小的正数，有称估计的序列为在概率上收敛于。
1 P Nr N lim 则称是一致的。
N （） N 有的人定义一致性为 0 2 N N Elim（）这称为在均方（mean square）意义上收敛于。
N .北京工业大学计算机学院18 有效性（efficient）若和都是的估计当时，称估计比有效。
N 样本容量N固定使取得最小值的估计在大多数情况下，可以认为这两种定义等价。
实际上，（）。

10、的定义比（）更强。
N NN VarVarN N 即当 N Var 称为的有效估计。
.北京工业大学计算机学院19 * Cramer-Rao定理：如果是的任一无偏估计，则估计的任一分量的方差满足式中，是下面矩阵J 的逆矩阵的对角线元素：如果是无偏的，且比有效，则是一致估计。
可以证明，最大似然估计是一致的。
1N N N N N N 1 2 iiii jE Li ， 21（） 1 ii j T EJaa ；，N pxxx a 21 ln 矩阵J 称为Fisher信息矩阵。
.北京工业大学计算机学院20 满足（）或()的等式的估计是所有估计中最有效的，称为最小方差估。

11、计。
当最小方差估计存在时，它一定是最大似然估计。
称为CramerRao不等式。
当是标量时，（）式化为（） 2 21 2 ln 1 ；，N N p E E xxx 1 2 iiii jE T EJaa ；，N pxxx a 21 ln .北京工业大学计算机学院21 *证明：由于是无偏的，有是最小方差估计的必要和充分条件是： N N Ba 式中是一个矩阵，它的元素是的函数，但不能是的函数。
B N T N E 0 NN T N dddpxxxxxx 2121 ；，.北京工业大学计算机学院22 将上式对求导，有 T N E N T N N ddd p xxx xxx 21 。

12、 21 ；，NN dddpxxxxxxI 2121 ；，T N N p xxx；，21 ln NN dddpxxxxxx 2121 ；，0 I NN T N dddpxxxxxx 2121 ；，a .北京工业大学计算机学院23 由前面的定义；，N pxxx a 21 ln () I a T N E 构造一个随机向量 a ii i z 由()式和有： T EJaa .北京工业大学计算机学院24 0 1 0 0 0100 2 J E zzE ii T ii 由于相关矩阵是半正定的，上式的行列式大于、等于0 0 2 iiii T ii JJEzzE a ii i z T ii a| 。

13、 I a T N E (i+1)+1+i+1=2i+3奇数 .北京工业大学计算机学院25 式中是J 的i行i列的代数余子式。
ii J， J 的逆矩阵的对角线元素。
12 ii ii ii J J J E 当为最小方差估计时，相关矩阵的行列式为0 ， zi的分量是线性相关的，所以有 N Ba 例例4 4：例2中关于均值的估计是无偏的。
mNm N E N mE N i i N 11 1 x 解解： .北京工业大学计算机学院26 若各个样本x x(i)是独立的，它们也是不相关的，所以估计的协方差矩阵是的协方差减小。
N m T NN mmmmE N i T i N i i mmE N。

14、11 2 1 xx Kxx N mmE N N i T ii 11 1 2 N m N 1 .北京工业大学计算机学院27 它比有效。
又由于无偏是m的最小方差估计。
N m 1N m 是m的一致估计。
N m 又由于 m mp N ；， xxx a 21 ln N i i m 1 1 xK mmN N K 1 具有的形式。
N Ba .北京工业大学计算机学院28 如果对待估参数有一些先验知识，这时可以把待估参数看作一个随机向量，用一个密度函数来刻画，那么这时可以使用贝叶斯估计。
3.2 贝叶斯估计最大似然估计把待估参数看作确定的量，它用于对未知参数没有先验知识或不愿意作某些假。

15、定的时候。
贝叶斯估计和贝叶斯决策是一样的思路。
一. 贝叶斯估计 p .北京工业大学计算机学院29 引入一个连续的损失函数，定义贝叶斯风险为：，c，N pcRxxx 21 dddd N xxx 21 NN dddpIxxxxxx 2121，式中（贝叶斯风险） dpcI N xxx，21 （条件风险） .北京工业大学计算机学院30 这时，若假定是非负的，也是非负的，最小和最小R是等价的。
，c 而 I I dp pp p pp p 使它们最小的估计称贝叶斯估计。
注意它和前面的是不同的。
这里是参数。
是联合密度函数，N pxxx 21 ；，N px 。

16、xx 21 dpcI N xxx，21 .北京工业大学计算机学院31 前式是一样的。
对于所有实际的应用用符号“ ”是为了表示是一个随机向量。
，N pxxx 21 pp N xxx ，21 N pxxx ，21 ；，N pxxx 21 p .北京工业大学计算机学院32 二.常用的损失函数，均方估计和最大后验估计为了求贝叶斯估计，我们需要先定义（先给出）损失函数的形式。
不同的损失函数会带来不同的贝叶斯估计值。
下面分析两种常用的损失函数的形式。
平方误差损失函数和均方估计 , 误差的二次函数 2，c .北京工业大学计算机学院33 而 dpI N xxx，21 2。

17、为了得到使最小的，只要 I 02 21 dp I N xxx，dp N xxx，21 即估计是的后验密度的均值。
这个估计称为均方估计，因为它使均方误差最小。
2 ER .北京工业大学计算机学院34 求解均方估计的步骤可以归纳如下：确定的先验分布；而 p 由样本集，求联合分布； N xxx ，21 ppp ，利用贝叶斯公式，求的后验分布 p pp p dpp 求 dp | .北京工业大学计算机学院35 均匀损失函数和最大后验估计损失函数为当时，这时，MAP c 0 MAP c 当时，1 MAP c dpI R N xxx1 21，dpcI 。

18、 N xxx，21 R .北京工业大学计算机学院36 区域是，任意小，R 这样，为使最小，积分项应最大。
而积分项，所以应使 N pxxx ，21 N N N p pp p xxx xxx xxx，，，21 21 21 I R Vp) ( 最大，称为最大后验估计。
由贝叶斯公式如果先验概率是均匀的（在感兴趣区），这时最大等价于最大。
pp 这时最大后验估计即最大似然估计。
.北京工业大学计算机学院37 例例5 5：正态分布均值的贝叶斯估计令x(1)， x(2)， x(N)是从已知协方差矩阵Kx和未知均值m的正态分布中抽取的。
mxmx 2 1 mx 1 2 1 。

19、 2 i x T i x n i K K p 2 1 -exp 假定均值本身的分布为正态N(m0 ， Km)分布（先验密度） 0 1 0 2 1 2 mmmm 2 1 m m T m n K K p 2 1 -exp 利用贝叶斯公式，可得后验密度，是正态的，其均值为 .北京工业大学计算机学院38 0 1 1 1 1 11 m 1 x 11 m m N i i xmx K NN KK N K 由于既是后验密度的均值，也是后验密度的最大值，所以既是均方估计也是最大后验估计 m m )mmm (dmp 当都是一维时有： 2 0 2 1 22 11111 m N xmx NN m mm .北京。

20、工业大学计算机学院39 2 0 2 1 22 22 11 m N xmx xm N N N m m 2 0 222 22 1 mx N xm mx N N N mm 22 0 22 xm xNm N N mm 0 22 2 22 2 mm xm x N xm m NN N .北京工业大学计算机学院40 样本均值和先验均值的线性组合，系数和为1 ，且都是正的。
0 22 2 22 2 mm xm x N xm m NN N m .北京工业大学计算机学院41 当N0时，,全部由先验均值定当时，由样本均值定当时，先验信息非常可靠，当时，先验的推测不可靠，0 mm N N mm 0。

21、2 m ,mm 0 22 xm N mm 一般情况下，， c为小于无穷大的非负实数，当样本足够多时，对、m0 的假设就不重要了，c m x 2 2 2 m N mm 0 22 2 22 2 mm xm x N xm m NN N m 由先验均值定由样本均值定 .北京工业大学计算机学院42 这节讨论直接从样本中估计密度函数的方法。
主要介绍两种方法： 3.3概率密度函数估计的非参数方法（非参数估计）前两节讲的参数估计方法要求（假定）密度函数的形式是已知的。
但实际工作中往往是：密度函数的形式不知道；密度函数的形式不是典型的常见分布，不能写成某些参数的函数。
.北京工业大学计算。

22、机学院43 一. Parzen窗估计 Parzen窗法 KN近邻法先估计类条件密度函数,然后用在似然比检验中由类条件密度函数的估计, 直接导致似然比检验基本思路（以一维随机变量的密度函数的估计为例）对随机变量x ，假定得到了N个独立的样本，x(1) ， x(2) ， x(N) ，它的密度函数p(x)可以用一个直方图近似，每一小区间的宽度为，中点为。
h2 x x .北京工业大学计算机学院44 hphP r 2 x x x 样本落在小区间内的概率可以近似为如果样本数足够多，则概率（上述事件）可以用频率（）近似。
N K 所以密度可以用近似。
hN K p 2 x .北京工业大学。

23、计算机学院45 把上述的思路一般化，定义如下的窗函数：则是以为中心的x的函数。
对落在内的样本，其函数值均为，对落在方窗外的样本，函数值为0 。
其它 0 2 1 hz hzr xx r x hh i x x x h2 1 .北京工业大学计算机学院46 这时一个样本贡献，共有K个，换个角度，即是N个窗的迭加。
函数r称为核函数，势函数或者Parzen窗函数。
h2 1 N i i r Nh K NhN K p 1 1 2 1 2 x x x 核函数（窗函数）也可以是其它的形状，常用的有 .北京工业大学计算机学院47 .北京工业大学计算机学院48 矩形窗估计出的容易产生不。

24、连续（钉子状,spiked）为了满足使估计出的是正的，而且积分为1（是密度函数），窗函数要满足：下面对上述方法作些理论和实际应用上的分析。
如果把区间2h（在多维时是体积V）固定，当样本数越来越多时，概率，但得到的密度却是空间的平均值，而非某一点的； x p zr x p 1 0 dzzr zr N K x x p .北京工业大学计算机学院49 要得到，而不是的平均值，则体积 V（2h） 0 ，但当V 0时，若样本数有限，则 x pp （恰好有样本）（不包含任何样本） 0 x p 假定有相当多的样本N 可以利用。
这时由于，下标表示总样本数。
N N N V。

25、N K p x .北京工业大学计算机学院50 这时若满足：窗函数若满足：使空间平均密度点的 0lim N N V x x p 频率收敛于概率 N N Klim 落在小区域内的样本同总数相比是低阶无穷大 0lim N K N N 0zr 1dzzr zr z sup .北京工业大学计算机学院51 （比更快的 0） 0lim 1 d i i z zzr zr z 1 这时，是渐近无偏和均方一致的。
x p 随机向量密度函数的估计(定量的分析，另种分析方法）有一随机向量x ， R是包含待估密度点的一个小区域。
记x在R内的概率P ，根据积分中值定理，为 x VpdpP R xxx 式中。

26、是区域R 的体积。
而是区域R中的某一点。
R dVx x .北京工业大学计算机学院52 当是连续的，且R取的足够小时，有，所以 xp xxpp V P p x 为了从一组样本x(1)， x(2)， x(N)中估计P ，我们要看N个样本中有多少落在区域R内。
假定各样本独立，则N个样本中有K个落在R中的概率服从二项分布： KN KK NK PPCP 1（）！！ KNK N C K N .北京工业大学计算机学院53 上述二项分布的均值和方差为： NPPPCKKE KN KK N N K 1 1 PNPKEKEKVar1 2 2 P 的最大似然估计，是要求，使得（）最大。
对（。

27、）求导，并令其等于 0 ，有 P P 1 1 11 KN K KN KK N K PKNPPKPC dP dP 011 1 1 KNPPKPPC KN KK N KN KK NK PPCP 1 .北京工业大学计算机学院54 这个估计是无偏的，N K P P N NP N KE PE 这个估计也是一致的，（无偏且有效）因为估计的方差为 N PP N KEKE PEPE 1 2 2 2 2 2 当N 变大时，方差变为无限小，所以有效，无偏且有效一致估计。
.北京工业大学计算机学院55 由估计出的，有 Parzen窗估计定义区域R是超立方体： N K P 定义核函数为：而 NV K p x 。

28、（） dih ii，；21 x x 其它，； 0 21 1 dihz V zr i dhV2 .北京工业大学计算机学院56 这时（）式为 N i i r N p 1 1 x x x 核函数的选择和一维时一样，也可选择其它的函数，如 n n n zr 2 2 22 2 1 z -exp NV K p x .北京工业大学计算机学院57 在选择核函数或核函数的参数时，应该注意的是：若核函数太“窄” ，则估计出的密度有可能不连续，呈现钉子状；若核函数太“宽” ，则估计出的密度有可能太平滑，不能显示分布的细节。
在实际问题中，核函数的选择取决于待估密度函数的形式;
样本数的多少。
.北京。

29、工业大学计算机学院58 二. KN 近邻估计在Parzen窗估计中，由于核和体积是固定的，所以若样本分布不均匀，就不能得到满意的估计。
解决的办法是：不使用固定的区域，而是固定落在区域内的样本数，例如KN个，而区域则由的邻域中正好包含KN个样本定。
之所以用符号KN ，表示K的选择和总样本数有关。
当把KN近邻法估计出的密度函数直接用于分类时，可以导致非常简单和有效的分类法。
x .北京工业大学计算机学院59 这样作的好处是： KN近邻估计的公式仍然为：样本多的地方，体积用的小些，提高分辨率；样本少的地方，体积用的大些，中间补些值，平滑一些。
N N N V N K p x 。

30、 .北京工业大学计算机学院60 近邻法在以下的条件下，将收敛于 x N p x p 0lim N N V N N Klim 0lim N K N N .北京工业大学计算机学院61 三. 近邻分类法以两类问题为例， 1和2 。
定义体积V是一个超球，中心在，半径是 r ，区域是：令每类的超球的半径所确定的超球正好包含该类的K个样本。
x rdxx，是前面讲过的任一种距离。
d 令Ni（i1 ， 2）是每类的样本数。
.北京工业大学计算机学院62 先验概率的估计是利用密度估计公式 21 21，i NN N P i ir 和最小错误率贝叶斯决策公式 NV K p x 1 2 2 1 2。

31、1 P P p p r r x x .北京工业大学计算机学院63 21 1 21 2 2 1 22 11 NN N NN N VN K VN K 1 2 2 1 11 22 N N VN VN 即，对每类固定的样本数（K），包含该类 K个样本的体积分别为V1和V2 ，然后比较V1 和V2的大小。
1 2 1 1 2 V V 1 2 2 1 2 1 P P p p r r x x .北京工业大学计算机学院64 若V2 V1 ，（在附近1类的样本多）则 1 若V1 V2 ，（在附近2类的样本多）则 2 x x 这种决策形式是样本数固定，比体积(grouped form) 。
另一种更方便的形式是，。

32、在（待估点）周围选一体积V ，它正好包含K个总样本数（1和2的）。
这样，两类的体积相同，但在这一体积内包含的1和2的样本数不同，分别为K1和K2 。
x .北京工业大学计算机学院65 依贝叶斯规则，有 21 1 21 2 2 1 2 2 1 1 NN N NN N VN K VN K 1 2 2 1 2 2 1 1 N N N K N K 1 2 1 2 1 K K 2 12 1 21 KK KK 即：在同一个超球内，哪类的样本多，就把归到哪类。
x 1 2 2 1 2 1 P P p p r r x x .北京工业大学计算机学院66 注意， K一般取奇数，防止出现K1K2的情况（K 。

33、K1K2）。
这种形式（称为pooled form）非常简单，它不需要计算体积，只要计算的K个近邻中，哪类的样本多就行了。
另外， KN近邻分类的性能也不错。
当样本数时， 1-近邻法（最近邻法）的错误率不超过最小错误率贝叶斯决策的错误率的二倍，当K1时，错误率还要低（但以贝叶斯错误率为下界）。
x .北京工业大学计算机学院67 近邻法分类的主要问题是，当特征维数和样本数大时，寻找K近邻的计算量大。
关于如何减少计算量和近邻的快速搜索算法，关于近邻法的错误率分析等，下一章专门讲。
把近邻法推广到多类问题中是很直接的。
假定有Nc类，先验概率的估计为：，N是样本总数。
N N 。

34、 P i ir 各类的密度估计为 ii i VN K 因此判别函数为： c i i ii ii i Ni V K NVN K N N g ， 21 1 x .北京工业大学计算机学院68 对于pooled法，体积正好为包含有K个总样本，（K1K2KNc K）因此等价的判别函数为决策规则为哪个Ki大，就把Ki分到该类。
ii Kg x .北京工业大学计算机学院69 * 3.4 分类器错误率的实验估计前面我们已经提过，分类器错误率的计算和估计有三种方法： 1. 按理论公式计算： 2. 估算错误率的上限当先验概率已知，类条件密度已知，定下决策规则后，按错误率的公式计算。
要作多重积分。
介绍了。

35、Bhattacharyya界和Chernoff界 3.实验估计 .北京工业大学计算机学院70 由于前两种情况计算上的困难，且要求知道密度函数，所以实际工作中常用的是实验估计。
即利用样本来估计错误率。
需要分析如何利用样本；估计出的错误率的性质如何。
分两种情况讨论： 1.已设计好分类器时，如何用样本估计错误率;
2.未设计好分类器时，如何把样本分为两部分，一部分用来设计分类器，另一部分用来检验分类器。
.北京工业大学计算机学院71 一. 已设计好分类器时的错误率的估计利用考试样本检验分类器时直观上认为错误率从估计理论上看，还需要分析：错分样本数样本总数 1.这个估计性质。

36、如何？ 2.这个估计是最好的吗？ 3.当检验样本数增多时，估计结果会有改善吗？表现在什么地方？下面分两种情况讨论： .北京工业大学计算机学院72 1. 先验概率Pr1和Pr2未知随机抽样作为检验集当不知Pr1和Pr2时，随机取N个样本，假定错分了K个，用表示真实的错误率，则K服从二项分布： KN KK N CKP 1 的最大似然估计： 0 1 1lnlnlnln KN K KNKC KP K N 是的最大似然估计。
N K .北京工业大学计算机学院73 由于K是随机变量，也是随机变量。
而是无偏的。
NKE NKVar1 N N N KE N K EE N N KVar N 。

37、 K EVar 1 2 由于时，有效 N 0 Var 一致。
.北京工业大学计算机学院74 2.先验概率Pr1和Pr2已知时选择抽样当已知两类的先验概率Pr1和Pr2时，可以分别抽取N1= Pr1N 和N2= Pr2N 个样本作检验集。
设K1和K2分别为N1和N2中被错分类的。
因为K1和K2是相互独立的，故其中， i=1 ， 2 ，是i类的真实错误率。
2 1 21 1 i KN i K i K N ii ii i CKKP ，i .北京工业大学计算机学院75 利用同样方法，得， i=1 ， 2的最大似然估计为：而总的估计错误为： i i i i N K 21 ， i 2211 PP。

38、rr 的期望和方差为 2211 PEPEE rr PP rr 2211 无偏 .北京工业大学计算机学院76 ii i ir P N Var 1 1 2 1 以上得到了未知先验概率时的估计量和已知先验概率时的估计量，哪一种更好呢？它们都是无偏的，比较一下它们的方差： N P N P N VarVar rr222111 111 0 1 2 2121 PP N rr，选择抽样的错误率的估计的方差要小，合理。
VarVar .北京工业大学计算机学院77 以上对于两类的讨论可以推广到多类。
归纳以上的分析，有：上述错误率的估计在最大似然估计的意义上最好；这些估计都是错误率的无偏估计量。

39、；随样本数的增加，置信区间相应地减小。
.北京工业大学计算机学院78 二. 未设计好分类器时错误率的估计，如何划分设计样本集和检验集实际工作中，能够得到的样本只有N个，用它既作设计，又要作检验。
存在一个如何划分检验样本集和设计样本集的问题。
不同的划分方法，会得出不同的结果。
全部用作设计，又用作检验，错误率比实际的小;
设计样本少时，估计的参数不可靠；检验集样本少时，估计的错误率不可靠。
当只有有限的N 个样本时 .北京工业大学计算机学院79 下面定性地分析一下: 假定数据来自某个分布，可以用参数向量刻画这个分布。
假定设计集的样本用刻画，可以用贝叶斯决策设计分类器。
。

40、假定检验集的样本用刻画。
D T 这时，错误率，而表示贝叶斯错误率，记作。
TD，TT，TB TDTTTB，（） .北京工业大学计算机学院80 假定真实的参数（对训练和检验集）为 0 令是从训练集的N个样本中得到的的估计。
由（）式，有由于是一个随机变量，对上两式取期望 N 0 00，NB NNN，0 N NNN NB EE E，，0 00 () .北京工业大学计算机学院81 如果由检验集得到的是的无偏估计，则有： 0 上式一般很难证明。
因为的准确函数形式不知道。
但它却是合理的。
因为它表示最优分类器的错误率所有N个样本检验时错误的平均。

41、期望。
把上式代入（）有： N 00 BN E，.北京工业大学计算机学院82 L unbiasesU C N N 00。
错误率的估计过于乐观法）留一法（样本划分法但当样本数有限时下界，它的错误率是贝叶斯的又叫再代入（利用）法）法（称为法，这种方法称为）（用独立于设计集样本用真实分布样本检验作设计、检验个样本设计，用贝叶斯错误率个样本同时用，NBNN EE .北京工业大学计算机学院83 样本划分法：把N个样本分为两个集留一法：设计集（关系到分类器性能）检验集（关系到对性能评价（错误率）的好坏） K 1 N K N 1 N 统计错分数设计、检验个检验次检验的一个。

【模式识别|模式识别概率密度估计】42、样本，然后个设计次重复设计放回，再留出不同个样本共 N N .北京工业大学计算机学院84 小结：小结：前面讲了概率密度函数估计的非参数方法 Parzen窗法 K-近邻法这两种密度估计都可以用到非参数分类器的设计上。
.北京工业大学计算机学院85 K-近邻法更方便些。
它有两种形式： grouped form ，体积法 pooled form ，投票法 21 1 21 2 2 1 2 2 1 1 NN N NN N VN K VN K 1 2 1 2 1 K K 21 1 21 2 2 1 22 11 NN N NN N VN K VN K 1 2 1 1 2 V V 21 KKK .北京工业大学计算机学院86 对于两类问题， K-近邻的体积法和（2K1）近邻的投票法，当对两类及相同的距离度量时，其分类结果是一样的，例如令K3 ，2K-1=5 ，在投票法的5近邻中，一个待分类样本的五个近邻中若有3个、4个或5个样本属于第一类，则待分类样本 1 ，这等价于1的第三个近邻离样本更近，（或同样包含三个每类样本时， 1的体积要小）。
。

来源：(未知)

【学习资料】网址：/a/2021/0504/0022061629.html

标题：模式识别|模式识别概率密度估计

傻大方

模式识别|模式识别概率密度估计

薪酬|薪酬岗述职工作报告

任务|任务仓库安全控制课件

模式识别|模式识别概率密度估计

过程|过程控制仪表及装置wxs(1)

企业|企业客户管理系统需求分析报告说明书

班组|班组安全管理之“八个到位”

春季|春季“停课不停学”工作汇报总结

企业|企业提质增效活动实施方案

关于|关于举办“重温激情岁月”夕阳美金婚、银婚庆典的策划

中考|中考数学基础题型提分讲练专题14统计初步(含解析)