工程硕士论文栏目提供最新工程硕士论文格式、工程硕士论文硕士论文范文。详情咨询QQ:4006227154

基于集成学习和流数据挖掘的雷电预报软件工程研究

论文编号:lw201807021818291557 所属栏目:工程硕士论文 发布日期:2018年07月05日 论文作者:www.51lunwen.com
提取的雷电样本数据存储在 MySQL 中,然后按照预处理、属性约简和时序聚类等方式对其操作,其结果都存放在 MySQL 中。

.........

总结

本文通过对当前流数据挖掘现状分析,针对雷电数据这一典型流数据挖掘问题进行深入研究,研究通过引入集成学习思想来完成对雷电预报这一问题的解决。通过对基于流数据挖掘的雷电数据建模和基于集成学习策略的雷电预报研究,提出了基于多机器学习竞争的雷电预报框架,并通过实验对该框架进行验证。本研究主要工作如下:
1、通过对流数据研究现状分析,提出基于流数据挖掘的雷电数据模型。首先建立雷电数据矩阵,然后从流数据中典型的时间序列角度出发,对雷电数据进行多维时序分析建模,从而构建雷电预报矩阵。基本思想是先对原始数据进行矩阵转换,然后按照区域划分,对各地区内各小区域数据进行预报矩阵建模,这样不仅考虑到了当前区域的数据特点,而且从时空角度充分考虑到了周边区域对当前区域的影响,使得数据模型更加精准。
2、采用集成学习策略思想,以经典机器学习算法为基分类器,提出基于多机器学习竞争的在线和离线两阶段雷电预报框架。在线阶段对到达的雷电数据实时处理,初始阶段对一定时间内的雷电数据进行时间序列聚类,然后对后续到达的每一个时间段内的雷电数据,将其根据相似性划分到对应微簇中并实时更新簇特征向量,并定期保存簇特征向量以便后续阶段挖掘分析。离线阶段对簇特征向量进行雷电预报挖掘,通过对簇特征向量的预处理,建立具有多维时间序列特性的雷电数据预报矩阵。用经典机器学习算法依次在多个 batch 的雷电训练集中训练多个不相同的基分类器,根据其在多个不同测试集预测效果择优选择多个最优分类器来组合集成预测。
3、提出最优分类器的择优选择策略。多机器学习竞争阶段,摒弃传统上将所有基分类器均作为输入进行集成预测的做法,而是根据每个基分类器算法预测准确率和方差大小择优选取个别基分类器算法进入下一阶段预报,从而使得集成阶段最优分类器个数减少,降低了算法运行时间,提高了对雷电数据这一典型流数据的处理性能。
..........
参考文献(略)