数据预处理-创新互联
各种数据分析技术的对象是数据源中的数据
数据源中的数据可能不完整(如某些属性的值不确定或空缺)、含噪声和不一致(如同一个属性在不同表中的名称不同) 、量纲不同
如果直接在这些未经处理的数据上进行分析,结果不一定准确,效率也可能较低
需要使用清理、集成、变换、归约等预处理方法改善数据质量,从而提高数据分析的效率与质量
主要介绍数据清理、集成、变换、规约等预处理技术
数据清理用于消除噪声、数据不一致及数据不完整
噪声可以通过平滑、识别孤立点等方法进行消除
分箱技术:将数据排序,根据等深或等宽分布规则将数据分布到不同箱中,将同一箱中的数据用用该箱中数据的平均值或中值、边界值替换(平均值平滑、中值平滑、边界平滑)
设某属性的值为18,12,3,9,7,6,15,21,16,采用分箱技术平滑数据消除噪声。分布规则为等深、深度为3,平滑规则为平均值平滑
首先,将属性的值排序为3, 6, 7, 9, 12, 15, 16, 18, 21
数据不完整可以使用下列方法消除:
1)使用一个全局常量填充
2)使用属性平均值填充
3)使用相同类的属性平均值填充
4)使用最可能的值填充 需要采用预测算法,预测给定样本的最可能的值并填充
数据不一致可以通过元数据消除(描述数据的数据)
数据集成
数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中
这些数据源可能包括多个数据库、数据立方体或一般文件
在数据集成时,需要消除冗余——能够由另外的属性“导出”、命名的不一致的属性
冗余可以通过相关分析进行检测
属性A、B之间的相关性计算:
rA,B>0,A与B正相关,A的值随着B的值的增加而增加
rA,B<0,A与B负相关,A的值随着B的值的增加而减少
rA,B=0,A与B独立。因此,|rA,B|很大时,A与B可以去除一个
数据变换
将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0
最小-大规格化:
[minA,maxA]为数值属性A规格化前的取值区间
[new minA,new maxA] 为A规格化后的取值区间,最小-大规格化根据下式将A的值v规格化为值v’
采用最小-大规格化方法将[-100,100]中的66规格化到区间[0,1]
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
当前题目:数据预处理-创新互联
网站路径:http://hbruida.cn/article/ghiij.html