按关键词阅读: 基于 样本 在线 均衡 极限 学习机 加权
计算方法如下所示: d=1nni=1D(xi ,c)(5) 其中函数D()表示欧氏距离计算方法 。
改进的SMOTE算法通过生成符合样本本身分布规律的少类样本实现过采样 , 主要包括三个阶段:1)寻找种子样本;2)对种子样本进行过采样得到虚拟样本;3)筛选合理的虚拟样本 。
具体步骤如下: 步骤1 生成种子样本 。
采用主曲线描绘出原始少类样本的分布趋势 , 如图1(a)所示 。
根据数据分布特点 , 基于主曲线设定上下阈值1、2 , 得到以主曲线为中心的带状区域 , 即可信区域 。
定义该可信区域内的点为种子样本 , 如图1(b)所示 。
其中:实 。
17、心点代表原始少类样本 , 空心点代表种子样本 。
步骤2 生成虚拟样本 。
对种子样本集Seed=(Xi ,yi) ,i=1 , 2 , N(其中:Xi为n维向量 , n为特征个数 , yi为标签 , N为种子个数)的每一个种子Xj , 寻找与其距离最近的k个种子样本Xnear(near=1 , 2 , k) 。
本文中k=5 , 如图2(a)所示 。
分别以Xj为中心 , 以它到Xnear的欧氏距离为半径做n维球体并在球内随机插值 , 得到虚拟样本 。
具体来说 , 设Xj为种子样本实例 , Xi为其近邻 。
以Xj为中心 , Xj与Xi之间的欧氏距离Xj-Xi为半径做n维球体 , 在该球体内随机插值得到t个虚拟样本点Xnew(new=1 , 2 ,t) , 如图2(b)所示 。
其中 。
18、:空心方块代表虚拟样本 , t为单次要增加的虚拟样本点数 。
根据文献5 , 在SMOTE算法中 , 通常取给定样本的5个近邻插值 , 因此 , 本文在n维球体内作插值时 , 也参照通常的取值方法 , 令t=5 。
3 仿真实验与分析 本文采用UCI标准数据集和实际的澳门气象数据11进行仿真实验 , 分别采用极限学习机(ELM)、在线贯序极限学习机(OSELM)和元认知在线贯序极限学习机(MetaCognitive Online Sequential Extreme Learning Machine ,MCOSELM)12与本文所提算法进行对比 。
其中 , MCOSELM是针对在线不均衡问题的元认知在线序列极限学习机算法 , 所有样本被线性 。
19、归一化到-1 , 1 。
根据第1章的分析 , 类别的严重不均衡易造成总体和多类样本“虚高”的分类效果 , 因此 , 本文更关注算法在少类样本上的分类精度 。
3.1 UCI标准数据集 选择两个标准数据集Blood和Abalone来进行仿真实验 。
离线阶段 , 采用改进SMOTE算法对数据预处理 , 得到均衡的样本集 , 见表1 。
给定隐层激活函数为中英全径向基函数(Radial basis function ,RBF)核函数 , 隐层节点分别为25、45 , 运行30次取均值 , 四种模型的性能如表2和表3所示 。
从表2和3可以看出 , 尽管ISWOSELM的总体训练精度和总体测试精度未能达到最高 , 但ISWOSELM的少类测试精度明显高于其 。
20、他三种算法 , 即ISWOSELM对少类样本的识别率最高 。
以Blood标准数据集为例 , ISWOSELM的少类测试精度比经典ELM和OSELM分别提高了24.30%和22.15% , 比核实 , 是否为Vong?应为Vong , 对应文献12 。
Vong等提出的MCOSELM提高了6.02% , 且四种算法的训练时间基本相同 , 表明ISWOSELM在不增加算法复杂度的前提下 , 对少类样本的预测精度更高 。
同样的结果也体现在Abalone数据集的仿真实验中 , 进一步表明ISWOSELM对提高少类样本分类精度的有效性 。
3.2 澳门气象数据 在空气质量监测等实际问题中 , 数据往往具有在线序列到达的特点 , 且空气质量良好的天数远远大于 。
21、空气严重污染的天数 , 因此是一种典型的不均衡在线贯序问题 。
由于采集数据的局限性 , 本文采用澳门气象局网站上公布的空气质量数据11进行仿真实验 。
给定训练数据集D=(是向量吗 , 是否为黑斜 , 核实x是向量 , 用黑斜;t为普通变量 , 不用黑斜 。
x ,t) , x表示输入向量 , 即当天的PM10、SO2、NO2、O3的浓度值 , x=(d(PM10) ,d(SO2) ,d(NO2) ,d(O3);t是输出是否黑斜?不是黑斜变量量即第二天的PM10的值 , 即t=d+1(PM10) 。
为验证ISWOSELM的有效性 , 利用2010一字线指什么?破折线的一半2012年澳门胱械焊窭嫉缕象站收集的序列数据进行实验 。
其中 , 2010年的数 。
22、据作为初始离线训练样本 , 2011年数据作为在线训练样本 , 2012年的数据作为测试样本 。
对2010年初始训练样本 , 采用改进SMOTE算法重构样本集 。
首先利用主曲线描绘出少类样本的大致轮廓 , 如图5(a) 。
基于设定上下阈值分别为1=20 , 2=25 , 得到以主曲线为中心的可信区域 , 如图5(b) , 选择可信区域内的少类样本点为种子样本 。
稿源:(未知)
【傻大方】网址:/a/2021/0821/0023864697.html
标题:基于|基于不均衡样本重构的加权在线贯序极限学习机( 三 )