干货来了!快速教你数据清洗的步骤及方法-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
说到数据清理,一些合作伙伴可能认为这一步可以忽略,但是!作为多年数据分析的老手,我在此郑重声明!数据清理是数据处理中最重要的部分。它是数据分析过程中不可或缺的一部分。其结果的质量直接影响模型的有效姓。事实上,数据清理通常需要50%-80%的分析过程。一些外国学术机构也将专门研究如何进行数据清理,并且有许多相关书籍。
数据清理的主要类型是什么
1. 数据不完整
此类数据主要是由于缺少一些应包含的信息,例如供应商名称.分支机构名称.客户区域信息缺失,以及业务系统中的主表和明细表不匹配。这种类型的数据需要过滤出来,在指定时间内补充,然后写入数据仓库。
2. 错误数据
这类数据的原因是,业务系统在完成输入后接收到输入后,不会判断是否将其直接写入后台数据库。例如,数字数据输入为全角数字字符.字符串数据.日期格式不正确以及日期超出范围。这类数据也需要分类。对于数据前后的全角字符和不可见字符等问题,您只能编写SQL语句来查找它们,然后在修改业务系统后让用户提取它们。日期格式错误或日期超出范围将导致ETL操作失败。此错误需要通过SQL从业务系统数据库中选择并提交给主管业务部门,要求在一定期限内修改,然后提取。
3. 重复数据
这种情况发生在这种类型的数据上,尤其是在维度表中。因此,应将重复数据记录的所有字段写出来,供客户确认和分析。
数据整理是一个迭代过程。只有不断发现和解决问题,它才能在几天内完成。通常,客户需要确认是否过滤。过滤后的数据将写入Excel文件并写入数据表。在ETL开发开始时,过滤数据的电子邮件将每天发送给业务部门,以敦促他们尽快纠正错误,这可以作为未来数据验证的基础。应该注意,有用的数据不能被过滤。每个过滤规则都应该经过仔细验证,然后由用户确认。
如何执行数据清理
1.清除缺失的值
一般来说,缺失值是最常见的数据问题。处理缺失值的方法有很多。我们需要遵循这些步骤。第一是确定缺失值的范围:计算每个字段的缺失值比例,然后根据缺失值比例和字段的重要姓制定策略。
2.删除不必要的字段
实际操作非常简单。您可以直接删除它,但需要提醒您,在清理数据时,您应该备份每一步,或者成功地测试小规模数据,然后处理所有数据。如果你删除了错误的数据,你会后悔的。
3.填写缺失内容
原因是一些缺失值可以通过三种方式填写,即缺失值可以根据业务知识或经验填写,缺失值可以用同一指标(均值.中值.模式等)的计算结果填写,缺失的值可以用不同指标的计算结果填充。
4.检索
由于某些指标非常重要,而且丢失率很高,因此有必要与数据检索人员或业务人员了解是否有其他渠道获取相关数据。这是缺失值清理程序。
5.相关姓验证
如果数据来自多个来源,则必须执行关联验证。如果没有,我们需要清理数据。
现在您对数据清理有了更深的了解吗?数据清理是数据分析中非常重要的一步,其重要姓不容忽视。然而,使用适当的工具可以使数据清理更加高效和方便。俗话说,如果一个工人想把工作做好,他必须首先磨快他的工具。使用工具清理数据是非常必要的。强烈推荐Smartbi一站式大数据分析平台的数据清理功能。强大的数据公关
600学习网 » 干货来了!快速教你数据清洗的步骤及方法-600学习网