按关键词阅读: 基于 样本 在线 均衡 极限 学习机 加权
1、基于不均衡样本重构的加权在线贯序极限学习机摘要:针对现有学习算法难以有效提高不均衡在线贯序数据中少类样本分类精度的问题 , 提出一种基于不均衡样本重构的加权在线贯序极限学习机 。
该算法从提取在线贯序数据的分布是否用特征更恰当?这里主要想表达提取数据内在的分布规律 , 还是觉得用特性好一些 。
特性入手 , 主要包括离线和在线两个阶段:离线阶段主要采用主曲线构建少类样本的可信区域 , 并通过对该区域内样本进行过采样 , 来构建符合样本分布趋势的均衡样本集 , 进而建立初始模型;而在线阶段则对贯序到达的数据根据训练误差赋予各样本相应权重 , 同时动态更新网络权值 。
采用UCI标准数据集和澳门实测气象数据进行实验对比 , 结果表明 , 与现有 。
2、在线贯序极限学习机(OSELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOSELM)相比 , 所提算法对少类样本的识别能力更高 , 以澳门气象数据为例 , 所提算法对少类样本的预测精度分别比其他三种算法提高了22.87%、25.76%和22.42% , 且所提算法的模型训练时间与其他三种算法相差不大 。
结果表明在不影响算法复杂度的情况下 , 所提算法能有效提高少类样本的分类精度 。
关键词:样本重构;极限学习机;主曲线;过采样;不均衡数据 中图分类号: TP181 文献标志码:A 英文摘要 Abstract:Many traditional machine learning methods tend t 。
3、o get biased classifier which leads to low classification precision for minor class in imbalanced online sequential data. To improve the classification accuracy of minor class ,a new weighted online sequential extreme learning machine based on imbalanced samplereconstruction was proposed. The algori 。
4、thm started from exploiting distributed characteristics of online sequential data ,and contained two stages. In offline stage ,the principal curve was introduced to construct the confidence region ,where oversampling was achieved for minor class to construct the equilibrium sample set which was cons 。
5、istent with the sample distribution trend ,and then the initial model was established. In online stage ,a new weighted method was proposed to update sample weight dynamically ,where the value of weight was related to training error. The proposed method was evaluated on UCI dataset and Macao meteorol 。
6、ogical data. Compared with the existing methods ,such as Online SequentialExtreme Learning Machine (OSELM) ,Extreme Learning Machine (ELM)and MetaCognitive Online Sequential Extreme Learning Machine (MCOSELM) ,the experimental results show that the proposed method can identify the minor class with a 。
7、 higher ability. Moreover ,the training time of the proposed method has not much difference compared with the others ,which shows that the proposed method can greatly increase the minor prediction accuracy without affecting the complexity of algorithm. 英文关键词 Key words:samplereconstruction; Extreme L 。
8、earning Machine (ELM); principal curve; oversampling; imbalanced data 0 引言 在线贯序学习是一种常见的机器学习问题 。
在实际工程应用中 , 在线贯序数据往往同时具有类别严重不均衡的特点 。
利用传统机器学习方法如支持向量机 , 得到的分类器往往表现出较大的偏向性 , 少类样本的识别率远远低于多类样本 。
以二分类为例 , 由于样本的极度不均衡 , 必将导致分类面偏离 , 易对少类样本形成误判 , 并造成多类样本“虚高”的分类精度 。
而实际问题中 , 人们更关心的是少类样本 , 且少类样本的错分代价通常大于多类样本1 , 例如 , 在气象时间序列数据中 , 对雾霾天气的错判更容易产生 。
9、不良影响 , 在医疗诊断时 , 对早期疾病状态的误判后果更为严重 。
因此 , 提高不均衡在线贯序数据中少类样本的分类精度具有重要的理论和工程意义 。
目前针对不均衡数据分类的处理方法主要分为基于数据的策略和基于算法的策略 。
前者通过对数据过采样和欠采样来降低类别的不均衡程度 , 从而提高分类精度;后者主要通过构建新的分类算法 , 如代价敏感、集成学习等 , 或改进现有算法 , 如加权支持向量机等 , 来解决数据的不均衡问题 。
对于基于数据的策略 , 目前常用的方法是少类样本合成过采样技术(Synthetic Minority Oversampling Technique , SMOTE)2 。
然而 , SMOTE算法存在一定的盲目性 , 即新生成的合 。
10、成样本可能不符合原始数据分布 , 特别是在样本集严重失衡的情况下 , 容易产生样本混合现象 , 影响分类效果 。
稿源:(未知)
【傻大方】网址:/a/2021/0821/0023864697.html
标题:基于|基于不均衡样本重构的加权在线贯序极限学习机