数据挖掘学习笔记(三)数据预处理

发布时间:2017-1-19 22:56:21 编辑:www.fx114.net 分享查询网我要评论
本篇文章主要介绍了"数据挖掘学习笔记(三)数据预处理",主要涉及到数据挖掘学习笔记(三)数据预处理方面的内容,对于数据挖掘学习笔记(三)数据预处理感兴趣的同学可以参考一下。

数据预处理 一,数据质量   数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。 二,数据预处理的任务   (1)数据清理 1,缺失值   方法:忽略元组;人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心度量填充缺失值;使用与给定元组同一类的所有样本的属性均值或中位数;使用最可能的值填充。 2,噪声数据   噪声是被测量的变量的随机误差或方差、   方法:    分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑    回归:用一个拟合函数来光滑数据    离群点分析:可以通过聚类来检测离群点   (2)数据集成     1,实体识别问题        来自多个信息源的现实世界的等价实体如何才能“匹配”?     2,冗余和相关分析        冗余是数据集成的一个重要问题,一个属性如果能由其他属性“导出”,那么这个属性就很可能是冗余的。有些属性可以由相关分析检测出来。       标称数据的χ2相关检验         假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br                  其中Oij是联合事件(Ai,Bj)的观测频度,而eij 是(Ai,Bj)的期望频度:                 其中,n是数据元组的个数,count(A=ai)是A上具有ai的元组的个数。         χ2 统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)*(c-1)。        数值数据的相关系数          对于数值数据,我们可以通过计算属性A和B的相关系数,估计这两个属性的相关度。    3, 除了检测属性间的冗余外,还应该在元组级检测重复。    4,数据值冲突的检测与处理        (3)数据规约            数据规约策略包括:维规约,数量规约和数据压缩。            维规约减少所考虑的随机变量的个数和属性的个数,维规约的方法包括:小波变换,主成分分析,属性子集选择。            数量规约用代替的,较小的数据表示形式替换原数据。            数据压缩分为有损的和无损的。         (4)数据变换与数据离散化              数据变换的策略:                光滑:去掉数据中的噪声。这类技术包括分箱,回归和聚类。                属性构造:由给定的属性构造新的属性并添加到属性集中去。                聚集:对数据进行进行汇总或聚集。                规范化:把属性数据按比例缩放,使其落入某个区间。                离散化:数据分层。                由标称数据产生概念分层:属性,如street,可以泛华到较高的概念层,如city或者country。

上一篇:黑马程序员 多线程
下一篇:cocos2d-x 一些简便方法

相关文章

相关评论