教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

大数据培训:填充缺失值的方法

更新时间:2022年08月12日11时59分 来源:传智教育 浏览次数:

好口碑IT培训

  数据挖掘中面对的通常都是大型的数据库,它的属性有几十个甚至几百个,因为其中某个属性值的缺失而放弃大量其他的属性值,这种删除是对信息的极大浪费,所以产生了插补缺失值的思想与方法。常用的填充缺失值方法具体如下。

  1.均值填充

  数据的属性分为定矩型和非定矩型。如果缺失值是定矩型的,就以该属性存在值的平均值插补缺失的值;如果缺失值是非定矩型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)补齐缺失的值。

  2.热卡填充

  对于一个包含缺失值的对象,热卡填充方法会在完整数据集中找到一个与它最相似的对象的值进行填充。对于不同的问题,可能会选用不同的标准对相似对象进行判定,从概念上理解该方法很简单,利用数据间的关系进行缺失值评估。热卡填充后方法的缺点在于难以定义相似标准,人为主观因素较多。

  3.回归填充

  将缺失值变量(自身字段)作为因变量,相关变量(其他字段)作为自变量进行回归拟合,用预测值作为填补值,需要注意的是自变量的数据尽量是完整的。

  与前述几种插补方法比较,回归填充方法的优势是可充分利用数据库中的信息,弊端主要有两点:第一,该方法是无偏估计,但容易忽视随机误差、低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多变得更加严重;第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,大多数情况下这种关系是不存在的。

  4.多重填充

  多重填充是由Rubin等人于1987年建立起的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值替换每个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自各个数据集的统计结果进行综合,得到总体参数的估计值。

  由于多重估算技术并不是用单一的值替换缺失值,而是试图产生缺失值的一个随机样本,这种方法可以反映出由于数据缺失而导致的不确定性,产生更加有效的统计推断。

0 分享到:
和我们在线交谈!