傻大方


首页 > 学习 >

基于|基于不均衡样本重构的加权在线贯序极限学习机( 二 )



按关键词阅读: 基于 样本 在线 均衡 极限 学习机 加权


为解决该问题 , 杨智明等3提出了一种自适应SMOTE , 根据样本集内部特征 , 自适应调整近邻选择策略 , 控制样本合成质量 。
Zhai等4通过采用分层过滤机制来处理噪声数据 , 运用少类选择策略和动态分布密度相结合 , 改进数据分布的不均衡程度 。
许丹丹等5把少类样本过采样的范围推广到n维球体 , 既解决了传统过采样技术引起的过拟合问题 , 又解决了SMOTE算法中对虚拟少类样本的范围限制 。
但上述研究并未考虑在线贯序数据的分布规律 , 生成的虚拟样本缺乏可信度 , 因此无法有效解决在线贯序学习问题 。
从算法角度出发 , 在线贯序极限学习机( 。

11、Online Sequential Extreme Learning Machine , OSELM)6在解决在线贯序数据的分类问题时表现出良好的性能 。
但OSELM以整体分类精度为目标 , 对少类样本的识别能力有限 , 尤其当样本集严重不均衡时 , 极易导致对少类样本的误判 。
例如 , 当容量为100的样本集中仅有5个少类样本时 , 分类面将严重偏离 , 此时多类样本可能全部分类正确 , 即使少类样本全部误判 , 整体分类精度仍可达到95% , 显然这一结果对少类样本是“虚假”的 , 对实际工程问题的解决毫无意义 。
综上可知 , 单独考虑数据层面或者算法层面 , 均难以有效解决不均衡在线贯序数据的分类问题 。
不难发现 , 提取在线贯序数据的分布特性是解 。

12、决该问题的关键所在 。
为此 , 本文同时从数据策略和算法策略入手 , 通过引入主曲线提取在线数据的分布特性 , 并在此基础上改进SMOTE方法 , 提高对少类样本的过采样质量;同时引入动态加权的思想 , 提出一种基于不均衡样本重构的加权在线贯序极限学习机(Imbalanced Samplereconstruction Weighted Online Sequential Extreme Learning Machine , ISWOSELM);最后采用UCI标准数据集和实际的澳门气象数据验证了该方法的有效性 。
1 相关工作 1.1 在线贯序极限学习机 极限学习机(Extreme Learning Machine , ELM 。

13、)7是一种单隐层前馈神经网络 。
该算法随机挑选输入层参数 , 直接利用MoorePenrose广义逆 , 即可求得最小L2范数的输出层权重 。
整个学习过程只有隐神经元个数可调 , 结构简单 , 具有非常快的学习速度和优秀的泛化能力 。
在线贯序极限学习机是在原始ELM算法的基础上提出的在线增量式快速学习算法 。
由文献8可知 , 算法步骤分为两个阶段: 步骤1 初始化阶段 。
1.2 主曲线 主曲线是通过数据集“中间”的光滑无参数曲线 , 是线性主成分分析的非线性推广 , 也是嵌入高维数据的非欧空间的一维流形表述9 。
主曲线理论基于一定概率分布下曲线的“自相合”性 , 即曲线上任意点都是所有投影至该点的数据点的条件对偶 。
不同于传统的非线性回 。

14、归方法 , 主曲线具有两个明显的优点:1)数据信息的保持性好;2)可有效勾勒出原始信息的轮廓 , 即数据集是“云” , 主曲线是该数据集的“骨架” 。
目前应用最广泛的是K主曲线 。
2 不均衡样本重构加权在线贯序极限学习机 为减少少类样本合成过程中的盲目性 , 提高其分类精度 , 本文同时从数据和算法两个角度出发 , 提出一种基于不均衡样本重构的加权在线贯序极限学习机算法 , 主要分为离线和在线两个阶段 。
2.1 离线阶段 初始离线阶段 , 通过改进SMOTE算法 , 对不均衡样本重构 , 并建立初始模型 。
其基本思想是首先采用主曲线构建少类样本的可信区域 , 得到种子样本 , 再分别对每个种子样本 , 采用所改进的SMOTE算法生成虚拟样本 , 同时判 。

15、断其可信度;考虑到样本的离散度 , 引入类中心和类平均距离的概念 , 进一步对虚拟样本筛选进而得到均衡的样本集 , 最后建立初始训练模型 。
首先给出几个定义:设某类样本集合S=xi ,i=1 , 2 ,n , 这里将”|”改成逗号 , 全文统一 。
其中xi表示m维向量 , 维数大小代表样本特征个数 。
定义1 类中心(class center)10是指某类样本在数据空间的平均中心点 。
类中心点c是与样本维数相同的请核实 , c是否为向量为黑斜 。
c为黑斜向量 , 计算方法如下所示: c=1nni=1x是否黑?xi表示向量 , 为黑 。
xi(4) 定义2 类平均距离(class average distance)10是指某类中各样本到类中心距离 。

16、和的平均值 , 是一标量 。
该距离d能够反映出类的距离程度 , 值越小类距离程度越紧 , 反之较松散 。


稿源:(未知)

【傻大方】网址:/a/2021/0821/0023864697.html

标题:基于|基于不均衡样本重构的加权在线贯序极限学习机( 二 )


上一篇:新视野大学英语视听说|基于《新视野大学英语视听说》教程的大学口语课程教学方法研究

下一篇:爱心|爱心主题晚会主持稿