更新时间:2022年09月02日09时30分 来源:传智教育 浏览次数:
在数据仓库环境中,数据清洗可以在不同阶段实现,并且存在不同的清洗策略,目前数据清洗的策略主要分为一般的数据清洗策略和混合的数据清洗策略。下面针对数据清洗的两种策略进行讲解。
按照数据清洗的实现方式与范围划分,一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及与特定应用领域无关的清洗策略,这4种清洗策略的具体介绍如下。
·手工清洗策略,即通过人工直接修改“脏”数据。
·自动清洗策略,即通过编写专门的应用程序检测并修改“脏”数据。
·特定应用领域的清洗策略,即根据概率统计学原理检测并修改数值异常的记录。
·与特定应用领域无关的清洗策略,即根据相关算法检测并删除重复记录。
混合的数据清洗策略主要以自动清洗为主。在数据仓库的数据初次装载阶段和增量装载阶段,可以通过编写应用程序实现批量数据的自动清洗,但该清洗策略并不能完全涵盖所有的错误类型。若无法按照已有策略识别某些错误类型,修改数据的工作就需要人工监督和确认,这时系统会设定异常报警功能,通过用户自身对错误的识别、理解和确认,最终实现数据清洗。