按关键词阅读: 概率 模式识别 估计 密度
1、北京工业大学计算机学院1 第三章 概率密度函 数的估计 .北京工业大学计算机学院2 前一章我们讨论了各种决策规则 , 在设计 分类器时 , 总是假定先验概率和类条件密 度函数是已知的 。
在实际工作中 , 先验概率和类条件密度函 数都可能未知 。
需要利用样本设计分类器 。
.北京工业大学计算机学院3 利用样本设计分类器 的方法有两种: 从样本中估计先验概率和类条件密度函 数 , 然而按前一章的方法 2)不作估计 , 直接利用样本设计分类器 在用第一种方法时 , 需要从收集的样本中去 估计先验概率和类条件密度函数 。
这就要用到估计理论 。
讨论如何估计(估计 的方法) , 估计的好坏、性质 。
.北京工业大学计算机学院4 从样本中估 。
2、计概率密度函数时 , 有以下一 些情况: 概率密度估计 参数估计 (分布形 式已知, 但参数要 估计) 非参数估计(分布 形式未知,直接估 计密度函数) 有监督的参 数估计(样本 类别已知) 无监督的参 数估计(样本 类别未知) 最大似然估计 (把待估参数看 作是确定的) 贝叶斯估计(把 待估参数看作 是随机的) Parzen窗估计 KN近邻估计 KN近邻分类法 .北京工业大学计算机学院5 参数估计中的一些基本概念: 统计量:针对不同的要求所构造的样本 的函数 , 包含了总体的信息; 参数空间:未知参数全部可允许值的集 合; 点估计:构造一个统计量作为待估参数 的值 , 即估计参数值; 区间估计:估计待估 。
3、参数可能取值的区 间 。
.北京工业大学计算机学院6 3.1 常数参数的估计 一般要估计的参数可能是标量、向量、矩阵 。
不失一般性 , 假定待估参数是向量。
在最大似然估计中 , 把待估参数 看作是 确定的常数 。
而贝叶斯估计则把 看作是随机变量 , 它 的先验密度是已知的 。
.北京工业大学计算机学院7 一. 最大似然估计 令 是随机向量x的密度函 数中的向量参数(其分量是标量) 。
记x的密 度函数为, 令 是 观测x所得到的N个样本 。
在估计问题中 , 这 些样本本身也是随机变量 , 可以用一个联合 密度函数 表示 。
假定这些样本 是独立 的 。
是 的函数 。
它是 的似然函数 。
T L,21 ;xp N xxx 。
4、 ,21 ; ,N pxxx 21 N xxx ,21 ; ,N pxxx 21 N xxx ,21 .北京工业大学计算机学院8 只要导数存在 , 使似然函数最大的 可以 通过解下面的似然方程或对数似然方程得 到: 0 21 ; ,N pxxx 0 ln 21 ; ,N pxxx 的最大似然估计是 , 在N个观测样本的基 础上 , 选择这样的, 它使似然函数最大 。
换句话说 , 选择的 应使 落在 (样本) 的附近小区域内最大 。
(当 均匀分布时 , 发生概率最大) N i xN i x N个观测样本 .北京工业大学计算机学院9 由于对数函数是单调增的 , 所以这两个方 程完全是等价的 。
用时哪个方便 , 就用哪 个 。
例例 。
5、1 1:计算机通道输出请求出现率的估计 假定计算机的某一通道输出请求的时间 间隔T按如下的指数函数分布: 其它 0 0 Te Tp T 假定观察了N+1个请求 , 间隔时间 为, 希望估计参数 的大小(称为到达率) N TTT ,21 .北京工业大学计算机学院10 解解:输出请求间的间隔假定为独立的 。
似然函数(联合密度函数)为 而 ; ,N TTTp 21 N i i i T N N i T ee 1 1 0ln 1 N i i TN (对数似然方程) N i i N i i N T N T N 1 1 1 1 .北京工业大学计算机学院11 例例2 2:多元正态密度函数均值的估计 。
(上 面的例子 。
6、估计了一个标量参数 , 本例估计一个向 量参数 。
) 已知随机变量x是正态分布的 , 协方差矩阵 K已知 , 均值m未知 。
给出N个样本x(1),x(2), x(N), 求均值的最大似然估计 。
解解:似然函数是样本的联合密度函数 mxxx; ,N p 21 N i i T i n K K 1 1 2 1 2 mxmx 2 1 2 1 -exp .北京工业大学计算机学院12 对数似然函数为样本联合密度函数的对数: mxxx 21 ; ,N pln N i i T i KK n 1 1 mxmx2 2 1 ln 2 1 ln 2 - 将上式对m求导并令它等于0 , 有 N i i N K p 1 1 21 0mx 。
7、 m mxxx; , ln K是一个常数矩阵 N i i N N 1 1 xm 即均值的最大似然估计等于样本均值 。
.北京工业大学计算机学院13 例例3 3:已知x服从均匀分布 似然函数为 解解:给出了N个样本x(1), x(2), x(N) 在用求导数的方法解似然方程时(求极 值) , 有时可能遇到一些问题:有多个极 值点;或没有极值点 。
下面看一个例子 。
其它 ; 0 1 21 12 x xp 2 1 N N p 12 21 1 ; , xxx .北京工业大学计算机学院14 对数似然函数为 欲使上两式等于0 ,必须无穷大才 行 。
而因为 不能大于最小的样本值 不能小于最大的样本值 12 21 lnln 。
8、Np N ; , xxx 121 21 ln Np N ; , xxx 122 21 ln Np N ; , xxx 12 1 x 2 x .北京工业大学计算机学院15 同时为使似然函数最大 ,要最小 ,而最小的可能值是。
,(似然函数在最大值 的地方没有零斜率) 12 x x x 2 x 1 .北京工业大学计算机学院16 二. 估计量的性质估计量的性质(注意语言中的断句、分词)(注意语言中的断句、分词) 参数 的一个估计量是样本的函数: 所以估计量本身也是一个随机向量 。
因此 可以在统计的意义上描述它的性质 , 建立 评价“估计好坏” 的标准 。
N NN xxx,21 无偏性(unbiased) 若。
9、 , 则称 是无偏的 , 否则 称为有偏的 。
N E N 若, 则称 是渐进无偏的 。
N N E lim N .北京工业大学计算机学院17 一致性(consistent) 若对任意小的正数, 有 称估计的序列 为在概率上收敛于。
1 P Nr N lim 则称 是一致的 。
N () N 有的人定义一致性为 0 2 N N Elim() 这称为在均方(mean square)意义上 收敛于。
N .北京工业大学计算机学院18 有效性(efficient) 若 和 都是 的估计 当 时 , 称估计 比 有效 。
N 样本容量N固定 使 取得最小值的估计 在大多数情况下 , 可以认为这两种定义等 价 。
实际上 , () 。
10、的定义比()更 强 。
N NN VarVarN N 即当 N Var 称为 的有效估计 。
.北京工业大学计算机学院19 * Cramer-Rao定理:如果 是 的任一 无偏估计 , 则估计的任一分量的方差满 足 式中 ,是下面矩阵J 的逆矩阵的对 角线元素: 如果 是无偏的 , 且 比 有效 ,则 是一致估计 。
可以证明 , 最大似然 估计是一致的 。
1N N N N N N 1 2 iiii jE Li , 21() 1 ii j T EJaa ; ,N pxxx a 21 ln 矩阵J 称为Fisher信息矩阵 。
.北京工业大学计算机学院20 满足()或()的等式的估计是所有 估计中最有效的 , 称为最小方差估 。
11、计 。
当 最小方差估计存在时 , 它一定是最大似然 估计 。
称为CramerRao不等式 。
当 是标量时 , ()式化为 () 2 21 2 ln 1 ; ,N N p E E xxx 1 2 iiii jE T EJaa ; ,N pxxx a 21 ln .北京工业大学计算机学院21 *证明:由于是无偏的 , 有 是最小方差估计的必要和充分条件是: N N Ba 式中 是一个矩阵 , 它的元素是 的函数 , 但不能是 的函数 。
B N T N E 0 NN T N dddpxxxxxx 2121 ; ,.北京工业大学计算机学院22 将上式对 求导 , 有 T N E N T N N ddd p xxx xxx 21 。
12、 21 ; ,NN dddpxxxxxxI 2121 ; ,T N N p xxx; ,21 ln NN dddpxxxxxx 2121 ; ,0 I NN T N dddpxxxxxx 2121 ; ,a .北京工业大学计算机学院23 由前面的定义 ; ,N pxxx a 21 ln () I a T N E 构造一个随机向量 a ii i z 由()式和 有: T EJaa .北京工业大学计算机学院24 0 1 0 0 0100 2 J E zzE ii T ii 由于相关矩阵是半正定的 , 上式的行列 式大于、等于0 0 2 iiii T ii JJEzzE a ii i z T ii a| 。
13、 I a T N E (i+1)+1+i+1=2i+3奇数 .北京工业大学计算机学院25 式中 是J 的i行i列的代数余子式 。
ii J, J 的逆矩阵的 对角线元素 。
12 ii ii ii J J J E 当为最小方差估计时 , 相关矩阵的行列 式为0 , zi的分量是线性相关的 , 所以有 N Ba 例例4 4:例2中关于均值的估计是无偏的 。
mNm N E N mE N i i N 11 1 x 解解: .北京工业大学计算机学院26 若各个样本x x(i)是独立的 , 它们也是不相 关的 , 所以估计 的协方差矩阵是 的协方差减小。
N m T NN mmmmE N i T i N i i mmE N。
14、11 2 1 xx Kxx N mmE N N i T ii 11 1 2 N m N 1 .北京工业大学计算机学院27 它比 有效 。
又由于无偏 是m的最小方差估计 。
N m 1N m 是m的一致估计 。
N m 又由于 m mp N ; , xxx a 21 ln N i i m 1 1 xK mmN N K 1 具有 的形式 。
N Ba .北京工业大学计算机学院28 如果对待估参数 有一些先验知识 , 这时 可以把待估参数看作一个随机向量 , 用一 个密度函数 来刻画 , 那么这时可以使 用贝叶斯估计 。
3.2 贝叶斯估计 最大似然估计把待估参数看作确定的量 ,它用于对未知参数没有先验知识或不愿意 作某些假 。
15、定的时候 。
贝叶斯估计和贝叶斯决策是一样的思路 。
一. 贝叶斯估计 p .北京工业大学计算机学院29 引入一个连续的损失函数, 定义贝 叶斯风险为:,c,N pcRxxx 21 dddd N xxx 21 NN dddpIxxxxxx 2121,式中 (贝叶斯风险) dpcI N xxx,21 (条件风险) .北京工业大学计算机学院30 这时 , 若假定 是非负的 ,也是 非负的 , 最小 和最小R是等价的 。
,c 而 I I dp pp p pp p 使它们最小的估计称贝叶斯估计 。
注意 它和前面的 是不 同的 。
这里 是参数 。
是联合密度函数,N pxxx 21 ; ,N px 。
16、xx 21 dpcI N xxx,21 .北京工业大学计算机学院31 前式 是一样的 。
对于所有实际的应用 用符号“ ”是为了表示 是一个 随机向量 。
,N pxxx 21 pp N xxx ,21 N pxxx ,21 ; ,N pxxx 21 p .北京工业大学计算机学院32 二.常用的损失函数 , 均方估计和最大后验估计 为了求贝叶斯估计 , 我们需要先定义(先 给出)损失函数的形式 。
不同的损失函数 会带来不同的贝叶斯估计值 。
下面分析两 种常用的损失函数的形式 。
平方误差损失函数和均方估计 , 误差的二次函数 2,c .北京工业大学计算机学院33 而 dpI N xxx,21 2。
17、为了得到使 最小的, 只要 I 02 21 dp I N xxx,dp N xxx,21 即估计 是 的后验密度的均值 。
这个估计称为均方估计 , 因为它使均方 误差 最小 。
2 ER .北京工业大学计算机学院34 求解均方估计的步骤可以归纳如下: 确定 的先验分布 ; 而 p 由样本集, 求 联合分布 ; N xxx ,21 ppp ,利用贝叶斯公式 , 求 的后验分布 p pp p dpp 求 dp | .北京工业大学计算机学院35 均匀损失函数和最大后验估计 损失函数为 当 时 ,这时,MAP c 0 MAP c 当 时 ,1 MAP c dpI R N xxx1 21,dpcI 。
18、 N xxx,21 R .北京工业大学计算机学院36 区域 是, 任意小 ,R 这样 , 为使 最小 , 积分项应最大 。
而积分项, 所以应使 N pxxx ,21 N N N p pp p xxx xxx xxx,,,21 21 21 I R Vp) ( 最大 , 称为最大后验估计 。
由贝叶斯公式 如果先验概率是均匀的(在感兴趣区) ,这时最大 等价于最大。
pp 这时最大后验估计即最大似然估计 。
.北京工业大学计算机学院37 例例5 5:正态分布均值的贝叶斯估计 令x(1), x(2), x(N)是从已知协方差矩 阵Kx和未知均值m的正态分布中抽取的 。
mxmx 2 1 mx 1 2 1 。
19、 2 i x T i x n i K K p 2 1 -exp 假定均值本身的分布为正态N(m0 , Km)分 布(先验密度) 0 1 0 2 1 2 mmmm 2 1 m m T m n K K p 2 1 -exp 利用贝叶斯公式 , 可得后验密度 , 是正 态的 , 其均值为 .北京工业大学计算机学院38 0 1 1 1 1 11 m 1 x 11 m m N i i xmx K NN KK N K 由于 既是后验密度的均值 , 也是后验 密度的最大值 , 所以 既是均方估计也 是最大后验估计 m m )mmm (dmp 当都是一维时有: 2 0 2 1 22 11111 m N xmx NN m mm .北京 。
20、工业大学计算机学院39 2 0 2 1 22 22 11 m N xmx xm N N N m m 2 0 222 22 1 mx N xm mx N N N mm 22 0 22 xm xNm N N mm 0 22 2 22 2 mm xm x N xm m NN N .北京工业大学计算机学院40 样本均值和先验均值的线性组合 , 系数 和为1 , 且都是正的 。
0 22 2 22 2 mm xm x N xm m NN N m .北京工业大学计算机学院41 当N0时 ,,全部由先验均值定 当 时 ,由样本均值定 当 时 , 先验信息非常可靠 ,当 时 , 先验的推测不可靠 ,0 mm N N mm 0。
21、2 m ,mm 0 22 xm N mm 一般情况下 ,, c为小于无穷大 的非负实数 , 当样本足够多时 ,对 、m0 的假设就不重要了 ,c m x 2 2 2 m N mm 0 22 2 22 2 mm xm x N xm m NN N m 由先验均值定 由样本均值定 .北京工业大学计算机学院42 这节讨论直接从样本中估计密度函数的方 法 。
主要介绍两种方法: 3.3概率密度函数估计的非参数方法 (非参数估计) 前两节讲的参数估计方法要求(假定)密度 函数的形式是已知的 。
但实际工作中往往是: 密度函数的形式不知道; 密度函数的形式不是典型的常见分布 ,不能写成某些参数的函数 。
.北京工业大学计算 。
22、机学院43 一. Parzen窗估计 Parzen窗法 KN近邻法 先估计类条件密度函数,然 后用在似然比检验中 由类条件密度函数的估计, 直接导致似然比检验 基本思路(以一维随机变量的密度函数的 估计为例) 对随机变量x , 假定得到了N个独立的样本 ,x(1) , x(2) , x(N) , 它的密度函数p(x)可以 用一个直方图近似 , 每一小区间的宽度 为, 中点为。
h2 x x .北京工业大学计算机学院44 hphP r 2 x x x 样本落在小区间内的概率可以近似为 如果样本数足够多 , 则概率(上述事件) 可以用频率( )近似 。
N K 所以密度可以用 近似 。
hN K p 2 x .北京工业大学 。
23、计算机学院45 把上述的思路一般化 , 定义如下的窗函数: 则 是以 为中心的x的函数 。
对落在 内的样本 , 其函 数值均为, 对落在方窗外的样本 , 函数 值为0 。
其它 0 2 1 hz hzr xx r x hh i x x x h2 1 .北京工业大学计算机学院46 这时 一个样本贡献, 共有K个 , 换个角度 ,即是N个窗的迭加 。
函数r称为核函数 , 势函数或者Parzen窗函 数 。
h2 1 N i i r Nh K NhN K p 1 1 2 1 2 x x x 核函数(窗函数)也可以是其它的形状 ,常用的有 .北京工业大学计算机学院47 .北京工业大学计算机学院48 矩形窗估计出的 容易产生不 。
24、连续(钉 子状,spiked) 为了满足使估计出的 是正的 , 而且积 分为1(是密度函数) , 窗函数 要满足: 下面对上述方法作些理论和实际应用上的 分析 。
如果把区间2h(在多维时是体积V)固定 ,当样本数越来越多时 ,概率 , 但得到 的密度却是空间的平均值 , 而非某一点 的 ; x p zr x p 1 0 dzzr zr N K x x p .北京工业大学计算机学院49 要得到, 而不是 的平均值 , 则体积 V(2h) 0 , 但当V 0时 , 若样本数有 限 , 则 x pp (恰好有样本) (不包含任何样本) 0 x p 假定有相当多的样本N 可以利用 。
这时由于, 下标表示总样 本数 。
N N N V。
25、N K p x .北京工业大学计算机学院50 这时若满足: 窗函数若满足: 使空间平均密度 点的 0lim N N V x x p 频率收敛于概率 N N Klim 落在小区域内的样本同总 数相比是低阶无穷大 0lim N K N N 0zr 1dzzr zr z sup .北京工业大学计算机学院51 ( 比 更快的 0) 0lim 1 d i i z zzr zr z 1 这时 ,是渐近无偏和均方一致的 。
x p 随机向量密度函数的估计(定量的分析 , 另种分析方法) 有一随机向量x , R是包含待估密度点 的 一个小区域 。
记x在R内的概率P , 根据积 分中值定理 , 为 x VpdpP R xxx 式中 。
26、 是区域R 的体积 。
而 是 区域R中的某一点 。
R dVx x .北京工业大学计算机学院52 当 是连续的 , 且R取的足够小时 ,有, 所以 xp xxpp V P p x 为了从一组样本x(1), x(2), x(N)中估 计P , 我们要看N个样本中有多少落在区 域R内 。
假定各样本独立 , 则N个样本中 有K个落在R中的概率服从二项分布: KN KK NK PPCP 1() ! ! KNK N C K N .北京工业大学计算机学院53 上述二项分布的均值和方差为: NPPPCKKE KN KK N N K 1 1 PNPKEKEKVar1 2 2 P 的最大似然估计, 是要求, 使得 ()最大 。
对( 。
27、)求导 , 并令其等于 0 , 有 P P 1 1 11 KN K KN KK N K PKNPPKPC dP dP 011 1 1 KNPPKPPC KN KK N KN KK NK PPCP 1 .北京工业大学计算机学院54 这个估计是无偏的 ,N K P P N NP N KE PE 这个估计也是一致的 , (无偏且有效) 因为估计的方差为 N PP N KEKE PEPE 1 2 2 2 2 2 当N 变大时 , 方差变为无限小 , 所以有 效 , 无偏且有效 一致估计 。
.北京工业大学计算机学院55 由估计出的, 有 Parzen窗估计定义区域R是超立方体: N K P 定义核函数为: 而 NV K p x 。
28、 () dih ii, ;21 x x 其它, ; 0 21 1 dihz V zr i dhV2 .北京工业大学计算机学院56 这时()式为 N i i r N p 1 1 x x x 核函数的选择和一维时一样 , 也可选择其 它的函数 , 如 n n n zr 2 2 22 2 1 z -exp NV K p x .北京工业大学计算机学院57 在选择核函数或核函数的参数时 , 应该注 意的是: 若核函数太“窄” , 则估计出的密度有 可能不连续 , 呈现钉子状; 若核函数太“宽” , 则估计出的密度有 可能太平滑 , 不能显示分布的细节 。
在实际问题中 , 核函数的选择取决于 待估密度函数的形式;
样本数的多少 。
.北京 。
29、工业大学计算机学院58 二. KN 近邻估计 在Parzen窗估计中 , 由于核和体积是固定的 ,所以若样本分布不均匀 , 就不能得到满意的 估计 。
解决的办法是:不使用固定的区域 , 而是固 定落在区域内的样本数 , 例如KN个 , 而区域 则由 的邻域中正好包含KN个样本定 。
之所 以用符号KN , 表示K的选择和总样本数有关 。
当把KN近邻法估计出的密度函数直接用于分 类时 , 可以导致非常简单和有效的分类法 。
x .北京工业大学计算机学院59 这样作的好处是: KN近邻估计的公式仍然为: 样本多的地方 , 体积用的小些 , 提高分 辨率; 样本少的地方 , 体积用的大些 , 中间补 些值 , 平滑一些 。
N N N V N K p x 。
30、 .北京工业大学计算机学院60 近邻法在以下的条件下 ,将收敛于 x N p x p 0lim N N V N N Klim 0lim N K N N .北京工业大学计算机学院61 三. 近邻分类法 以两类问题为例 , 1和2 。
定义体积V是一个超球 , 中心在, 半径是 r , 区域是: 令每类的超球的半径所确定的超球正好包 含该类的K个样本 。
x rdxx,是前面讲过的任一种距离 。
d 令Ni(i1 , 2)是每类的样本数 。
.北京工业大学计算机学院62 先验概率的估计是 利用 密度估计公式 21 21,i NN N P i ir 和最小错误率贝叶斯决策公式 NV K p x 1 2 2 1 2。
31、1 P P p p r r x x .北京工业大学计算机学院63 21 1 21 2 2 1 22 11 NN N NN N VN K VN K 1 2 2 1 11 22 N N VN VN 即 , 对每类固定的样本数(K) , 包含该类 K个样本的体积分别为V1和V2 , 然后比较V1 和V2的大小 。
1 2 1 1 2 V V 1 2 2 1 2 1 P P p p r r x x .北京工业大学计算机学院64 若V2 V1 , (在 附近1类的样本多) 则 1 若V1 V2 , (在 附近2类的样本多) 则 2 x x 这种决策形式是样本数固定 , 比体积(grouped form) 。
另一种更方便的形式是 ,。
32、在 (待估点) 周围选一体积V , 它正好包含K个总样本数 (1和2的) 。
这样 , 两类的体积相同 ,但在这一体积内包含的1和2的样本数不 同 , 分别为K1和K2 。
x .北京工业大学计算机学院65 依贝叶斯规则 , 有 21 1 21 2 2 1 2 2 1 1 NN N NN N VN K VN K 1 2 2 1 2 2 1 1 N N N K N K 1 2 1 2 1 K K 2 12 1 21 KK KK 即:在同一个超球内 , 哪类的样本多 , 就 把 归到哪类 。
x 1 2 2 1 2 1 P P p p r r x x .北京工业大学计算机学院66 注意 , K一般取奇数 , 防止出现K1K2的情 况(K 。
33、K1K2) 。
这种形式(称为pooled form)非常简单 , 它 不需要计算体积 , 只要计算 的K个近邻中 ,哪类的样本多就行了 。
另外 , KN近邻分类的性能也不错 。
当样本 数 时 , 1-近邻法(最近邻法)的错误 率不超过最小错误率贝叶斯决策的错误率 的二倍 , 当K1时 , 错误率还要低(但以 贝叶斯错误率为下界) 。
x .北京工业大学计算机学院67 近邻法分类的主要问题是 , 当特征维数和 样本数大时 , 寻找K近邻的计算量大 。
关于 如何减少计算量和近邻的快速搜索算法 ,关于近邻法的错误率分析等 , 下一章专门 讲 。
把近邻法推广到多类问题中是很直接的 。
假定有Nc类 , 先验概率的估计为:,N是样本总数 。
N N 。
34、 P i ir 各类的密度估计为 ii i VN K 因此判别函数为: c i i ii ii i Ni V K NVN K N N g , 21 1 x .北京工业大学计算机学院68 对于pooled法 , 体积正好为包含有K个总样 本 , (K1K2KNc K) 因此等价的判别函数为 决策规则为哪个Ki大 , 就把Ki分到该类 。
ii Kg x .北京工业大学计算机学院69 * 3.4 分类器错误率的实验估计 前面我们已经提过 , 分类器错误率的计算 和估计有三种方法: 1. 按理论公式计算: 2. 估算错误率的上限 当先验概率已知 , 类条件密度已知 , 定下决策规 则后 , 按错误率的公式计算 。
要作多重积分 。
介绍了 。
35、Bhattacharyya界和Chernoff界 3.实验估计 .北京工业大学计算机学院70 由于前两种情况计算上的困难 , 且要求知 道密度函数 , 所以实际工作中常用的是实 验估计 。
即利用样本来估计错误率 。
需要分析 如何利用样本; 估计出的错误率的性质如何 。
分两种情况讨论: 1.已设计好分类器时 , 如何用样本估计 错误率;
2.未设计好分类器时 , 如何把样本分为两 部分 , 一部分用来设计分类器 , 另一部 分用来检验分类器 。
.北京工业大学计算机学院71 一. 已设计好分类器时的错误率的估计 利用考试样本检验分类器时 直观上认为错误率 从估计理论上看 , 还需要分析: 错分样本数 样本总数 1.这个估计性质 。
36、如何? 2.这个估计是最好的吗? 3.当检验样本数增多时 , 估计结果会有 改善吗?表现在什么地方? 下面分两种情况讨论: .北京工业大学计算机学院72 1. 先验概率Pr1和Pr2未知随机抽 样作为检验集 当不知Pr1和Pr2时 , 随机取N个样 本 , 假定错分了K个 , 用 表示真实的 错误率 , 则K服从二项分布: KN KK N CKP 1 的最大似然估计: 0 1 1lnlnlnln KN K KNKC KP K N 是 的最大似然估计 。
N K .北京工业大学计算机学院73 由于K是随机变量 ,也是随机变量 。
而 是无偏的 。
NKE NKVar1 N N N KE N K EE N N KVar N 。
37、 K EVar 1 2 由于 时 ,有效 N 0 Var 一致 。
.北京工业大学计算机学院74 2.先验概率Pr1和Pr2已知时选择 抽样 当已知两类的先验概率Pr1和Pr2时 ,可以分别抽取N1= Pr1N 和N2= Pr2N 个样本作检验集 。
设K1和K2分别为N1和N2中被错分类的 。
因为K1和K2是相互独立的 , 故 其中, i=1 , 2 , 是i类的真实错误 率 。
2 1 21 1 i KN i K i K N ii ii i CKKP ,i .北京工业大学计算机学院75 利用同样方法 , 得, i=1 , 2的最大似 然估计为: 而总的估计错误为: i i i i N K 21 , i 2211 PP。
38、rr 的期望和方差为 2211 PEPEE rr PP rr 2211 无偏 .北京工业大学计算机学院76 ii i ir P N Var 1 1 2 1 以上得到了未知先验概率时 的估计量 和已知先验概率时的估计量, 哪一种 更好呢? 它们都是无偏的 , 比较一下它们的方差: N P N P N VarVar rr222111 111 0 1 2 2121 PP N rr, 选择抽样的错误率的估 计的方差要小 , 合理 。
VarVar .北京工业大学计算机学院77 以上对于两类的讨论可以推广到多类 。
归纳以上的分析 , 有: 上述错误率的估计在最大似然估计的 意义上最好; 这些估计都是错误率的无偏估计量 。
39、; 随样本数的增加 , 置信区间相应地减 小 。
.北京工业大学计算机学院78 二. 未设计好分类器时错误率的估计 ,如何划分设计样本集和检验集 实际工作中 , 能够得到的样本只有N个 , 用 它既作设计 , 又要作检验 。
存在一个如何 划分检验样本集和设计样本集的问题 。
不 同的划分方法 , 会得出不同的结果 。
全部用作设计 , 又用作检验 , 错误率比 实际的小;
设计样本少时 , 估计的参数不可靠; 检验集样本少时 , 估计的错误率不可靠 。
当只有有限的N 个样本时 .北京工业大学计算机学院79 下面定性地分析一下: 假定数据来自某个分布 , 可以用参数向 量 刻画这个分布 。
假定设计集的样本用 刻画 , 可以用贝 叶斯决策设计分类器 。
。
40、 假定检验集的样本用 刻画 。
D T 这时 , 错误率, 而 表示贝叶斯错误率 , 记作。
TD,TT,TB TDTTTB,() .北京工业大学计算机学院80 假定真实的参数(对训练和检验集)为 0 令 是从训练集的N个样本中得到的 的估计 。
由()式 , 有 由于 是一个随机变量 , 对上两式取期 望 N 0 00,NB NNN,0 N NNN NB EE E,,0 00 () .北京工业大学计算机学院81 如果由检验集得到的 是 的无偏估 计 , 则有: 0 上式一般很难证明 。
因为 的准确函数 形式不知道 。
但它却是合理的 。
因为它 表示最优分类器的错误率所有N个样本 检验时错误的平均 。
41、期望 。
把上式代入 ()有: N 00 BN E,.北京工业大学计算机学院82 L unbiasesU C N N 00。
错误率的估计过于乐观 法)留一法( 样本划分法 但当样本数有限时下界 , 它的错误率是贝叶斯的 又叫再代入(利用)法 )法(称为法 , 这种方法称为 )(用独立于设计集样本 用真实分布样本检验作设计、检验 个样本设计 , 用贝叶斯错误率个样本同时用,NBNN EE .北京工业大学计算机学院83 样本划分法:把N个样本分为两个集 留一法: 设计集(关系到分类器性能) 检验集(关系到对性能评价(错误率) 的好坏) K 1 N K N 1 N 统计错分数设计、检验个检验 次检验的一个 。
【模式识别|模式识别概率密度估计】42、样本 , 然后个设计 次重复设计放回 , 再留出不同个样本共 N N .北京工业大学计算机学院84 小结:小结: 前面讲了概率密度函数估计的非参数方法 Parzen窗法 K-近邻法 这两种密度估计都可以用到非参数分类器 的设计上 。
.北京工业大学计算机学院85 K-近邻法更方便些 。
它有两种形式: grouped form , 体积法 pooled form , 投票法 21 1 21 2 2 1 2 2 1 1 NN N NN N VN K VN K 1 2 1 2 1 K K 21 1 21 2 2 1 22 11 NN N NN N VN K VN K 1 2 1 1 2 V V 21 KKK .北京工业大学计算机学院86 对于两类问题 , K-近邻的体积法和(2K1) 近邻的投票法 , 当对两类及相同的距离度 量时 , 其分类结果是一样的 , 例如令K3 ,2K-1=5 , 在投票法的5近邻中 , 一个待分 类样本的五个近邻中若有3个、4个或5个样本 属于第一类 , 则待分类样本 1 , 这等价 于1的第三个近邻离样本更近 , (或同样包 含三个每类样本时 , 1的体积要小) 。
。
来源:(未知)
【学习资料】网址:/a/2021/0504/0022061629.html
标题:模式识别|模式识别概率密度估计