英语论文网

留学生硕士论文 英国论文 日语论文 澳洲论文 Turnitin剽窃检测 英语论文发表 留学中国 欧美文学特区 论文寄售中心 论文翻译中心 我要定制

Bussiness ManagementMBAstrategyHuman ResourceMarketingHospitalityE-commerceInternational Tradingproject managementmedia managementLogisticsFinanceAccountingadvertisingLawBusiness LawEducationEconomicsBusiness Reportbusiness planresearch proposal

英语论文题目英语教学英语论文商务英语英语论文格式商务英语翻译广告英语商务英语商务英语教学英语翻译论文英美文学英语语言学文化交流中西方文化差异英语论文范文英语论文开题报告初中英语教学英语论文文献综述英语论文参考文献

ResumeRecommendation LetterMotivation LetterPSapplication letterMBA essayBusiness Letteradmission letter Offer letter

澳大利亚论文英国论文加拿大论文芬兰论文瑞典论文澳洲论文新西兰论文法国论文香港论文挪威论文美国论文泰国论文马来西亚论文台湾论文新加坡论文荷兰论文南非论文西班牙论文爱尔兰论文

小学英语教学初中英语教学英语语法高中英语教学大学英语教学听力口语英语阅读英语词汇学英语素质教育英语教育毕业英语教学法

英语论文开题报告英语毕业论文写作指导英语论文写作笔记handbook英语论文提纲英语论文参考文献英语论文文献综述Research Proposal代写留学论文代写留学作业代写Essay论文英语摘要英语论文任务书英语论文格式专业名词turnitin抄袭检查

temcet听力雅思考试托福考试GMATGRE职称英语理工卫生职称英语综合职称英语职称英语

经贸英语论文题目旅游英语论文题目大学英语论文题目中学英语论文题目小学英语论文题目英语文学论文题目英语教学论文题目英语语言学论文题目委婉语论文题目商务英语论文题目最新英语论文题目英语翻译论文题目英语跨文化论文题目

日本文学日本语言学商务日语日本历史日本经济怎样写日语论文日语论文写作格式日语教学日本社会文化日语开题报告日语论文选题

职称英语理工完形填空历年试题模拟试题补全短文概括大意词汇指导阅读理解例题习题卫生职称英语词汇指导完形填空概括大意历年试题阅读理解补全短文模拟试题例题习题综合职称英语完形填空历年试题模拟试题例题习题词汇指导阅读理解补全短文概括大意

商务英语翻译论文广告英语商务英语商务英语教学

无忧论文网

联系方式

异常数据中多维指标探讨热点研究

论文作者:www.51lunwen.org论文属性:硕士毕业论文 dissertation登出时间:2012-08-19编辑:shstudy点击率:3830

论文字数:28000论文编号:org201208192042326773语种:中文 Chinese地区:中国价格:$ 22

关键词:异常数据多维指标检验方法距离

摘要:统计数据质量问题一直困扰着我国统计界,是政府和社会各界关心的问题,我们需要一种能检查和审核统计数据的可靠性和准确性、识别异常数据的定量方法和工具。

异常数据中多维指标探讨热点研究

导读:常见的统计分析,如参数估计,假设检验,方差分析,相关分析,回归分析,聚类分析等,都要用到样本均值、样本方差等统计量,受异常数据影响的样本均值和样本方差会影响这些统计分析的结果。由本站代写硕士论文中心整理。

 

1前言
1. 1选题的意义
1.1.1问题的提出
    统计数据质量问题一直困扰着我国统计界,为社会各界所关注,是政府和社会各界关心的问题,所以近年来对其理论上的研究探讨始终保持热点。研究的重点主要是在健全统计法律制度和完善工作程序等方面。统计数据质量问题其实在本质上是误差问题,对原始数据进行检查和审核是提高统计数据质量的重要措施和关键环节。为此,需要一种能检查和审核统计数据的可靠性和准确性、识别异常数据(outlier)的定量方法和工具。目前,关十统计数据可靠性和准确性的研究还处十定性阶段,异常数据的识别主要也是针对具体的分布从数学的角度上进行研究「2」。
    在一组测量数据中,如果有个别数据与其他数据有明显的差异,超出了预期的测量范围,则称其为异常数据或可疑数据。
    异常数据的出现有两种原因:主观上抽样调查技术有问题,疏忽大意记错或人为的虚报、谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由十特定原因在某些变量上的突出表现,明显超出平均水平,这也可能使数据出现异常。对检测出的这些异常数据是校正还是删除,我们应深入考察其产生的原因,慎重处理,不能自目易(除3]。
    异常数据的存在会使得样本均值产生明显偏差,样本方差变大。常见的统计分析,如参数估计,假设检验,方差分析,相关分析,回归分析,聚类分析等,都要用到样本均值、样本方差等统计量,受异常数据影响的样本均值和样本方差会影响这些统计分析的结果。因此,由样本对总体的推断、控制和预测等工作可能会不准确,甚至出现错误。可见,检验样本中是否含有异常数据显得很有必要。总之,寻找合适的方法来发现和处理这些异常数据是十分重要的。

 

1. 1. 2异常值
    何谓异常数据?从有关文献中我们可以发现国内外的一些学者们认识不尽相同,从它们的内涵关系来说,分为广义定义及狭义定义「」」。
    定义1(广义定义):在所获统计数据中相对误差较大的观察数据称之为异常值(outlier),或称奇异值。
    定义2(狭义定义):一批数据中有部分数据与其余数据相比明显不一致的称为异常值,或称离群值。
    统计数据中的一切失实的数据统称为异常值,由十人为或随机因素造成的失实数据都有可能出现,所以统计数据中的任何一个数据都有可能成为异常值。Ifn定义2所说的异常值是离群值,把统计数据从小到大按顺序排列,若有异常值,它必在其数据的两端,异常大值或异常小值。由此可见,定义1包含了定义2,因此分别将其称为广义与狭义定义。
    在对统计数据的质量进行评估时,虽然能运用计算机对数据间的逻辑关系进行检查和纠正,然}fn面对混在大量原始数据中的异常数据却难以较准确地判断。尤其是广义定义上的异常值,到目前为止国内外尚无有效的方法将其一一检验出来。对十狭义定义下的异常值,由十它们对统计分析的结果反应灵敏及数学上的处理相对来说较简单。近年来,国内外不少学者从不同角度对其给出了一些方法对样本数据的描述,指数分布,伽玛分布,威布尔分布以及对数正态分布占据了十分重要的角色,因为它们在相当广泛的范围内具有实用性。在此基础上,国内外已有的文献基本上都是针对上述分布研究异常数据的检验问题。同日寸国家标准局也已颁布了正态分布、极值分布以及指数分布异常数据的判断和处理的二个国家标准,供工作者使用「5」。

 

1. 1. 3研究的目的
    当我们对大量的数据进行统计时,如果测量数据中包含异常数据,将对众多分析结果产生不良影响。如:平均值估计不准,会使估计方差明显增大,造成检验结论出现错误,使回归或判别模型参数估计的不准,影响聚类结果。
    异常数据对十几乎所有统计结果都会产生不同程度的影响,所以除了某种特殊的目的需要对异常数据加以分析外,正常的统计分析过程都必须首先检查并剔除样本中的异常数据,以保证统计结果不受其影响失去常态。
    正态分布是统计中最重要的分布,其对称性和单峰性使得对异常数据的研究相对简单一些,常用的检验方法也较多,检验效果也不错;指数分布根据其特殊性质,能构造出一些统计量来检验样本中是否含有异常数据,这些统计量不仅与原分布的参数无关能够推导出来它们的分布函数;对十威布尔分布的异常数据检验,常用统计量的分布都与原分布的参数无关,但还没有推导出这些统计量的分布函数,因此当样本容量不大时对常用统计量的分位数能够Monte-Carlo模拟得到(蒙特卡罗方法,或称计算机随机模拟方法,是一种基十“随机数“的计算方法),样本容量较大时需要用大样本理论找其近似分布。
    按照一般的数据处理程序,在进行正常的数据分析之前都要对异常数据进行检查识别,并进行必要的预处理,以确保分析结果的“常态”性。但目前测量学中所提供的异常数据识别方法,都只针对一维数据,即只针对单一测量指标进行数据检查。然Ifn,在统计实践中我们经常会感到仅仅使用单指标进行数据检查不能有效发现测量数据包含的全部异常。这通常发生十多维关联样本的情形,在多指标情形下,有些样本对每一单指标的检查可能通过,但对多指标关联考查就显得明显不合逻辑}fn出现异常,此类数据同样可能造成统计结论的偏误。所以为了探索解决此类问题的方法,提高统计数据的准确性和可靠性,本文在对常用异常数据识别方法进行分析的基础上尝试寻找一种可应用十多指标情形下的异常数据的识别方法,为数据分析提供便利的辅助工具「6]

 

1. 2研究方法
1. 2. 1研究思路
    要建立异常数据的识别方法,首先应寻找一个可以表达多指标情形下点与点之间关系的、简单易用的数量指标。距离是可以满足这个要求的指标之一,利用距离可以表示点与点间关系。如果某点是样本中的异常点,它必远离样本中的其它点,即与多数点的距离较大,其平均距离也必大。反之,若某点为正常值,则它必与样本中的某些点相邻较近,距离较小,则其平均距离必不大。从此思想出发,本文尝试利用点与点之间的平均距离作为识别多维指标下样本异常值的方法。并分别采用欧氏距离、马氏距离和斜交空间距离进行尝试。

 

1.2.2研究对象与方法
1. 1研究对象
    异常数据的检测方法
1.2.2.2研究方法

    检索国家图书馆1999年一一2009年馆藏国内外期刊;中国期刊网1995年一一2009年中文相关期刊;参考部分相关文献,了解当前研究状态。
(2)比较分析法
    对一些异常数据的识别方法进行对比分析,用对比实验的方法对常用方法进行分析评价。
(3)探究性实验法
    根据现有理论,提出各种假设或猜想,通过探索性实验寻找可以在多指标情形下检查并发现异常点的方法。
(4)数理统计分析法
    运用spss数据统计软件对数据进行统计、分析,并作出总结。
1. 3论文创新点
    多指标情形下异常数据的识别方法
1. 4预期结果和意义
    目前测量学中所提供的异常数据论文英语论文网提供整理,提供论文代写英语论文代写代写论文代写英语论文代写留学生论文代写英文论文留学生论文代写相关核心关键词搜索。

共 1/2 页首页上一页12下一页尾页

英国英国 澳大利亚澳大利亚 美国美国 加拿大加拿大 新西兰新西兰 新加坡新加坡 香港香港 日本日本 韩国韩国 法国法国 德国德国 爱尔兰爱尔兰 瑞士瑞士 荷兰荷兰 俄罗斯俄罗斯 西班牙西班牙 马来西亚马来西亚 南非南非