大数据清洗需要清洗哪些数据

2024-05-15

1. 大数据清洗需要清洗哪些数据


大数据清洗需要清洗哪些数据

2. 数据清洗

从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解决方式和方法。在此简略描述一下,若有错误,请指出,不胜感激!
  
 解决数据质量问题
  
 解决数据的各种问题,包括但不限于:
  
 数据的完整性----例如人的属性中缺少性别、籍贯、年龄等
  
 数据的唯一性----例如不同来源的数据出现重复的情况
  
 数据的权威性----例如同一个指标出现多个来源的数据,且数值不一样
  
 数据的合法性----例如获取的数据与常识不符,年龄大于150岁
  
 数据的一致性----例如不同来源的不同指标,实际内涵是一样的,或是同一指标内涵不一致
  
 数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。
  
 那么为了解决以上的各种问题,我们需要不同的手段和方法来一一处理。
  
 每种问题都有各种情况,每种情况适用不同的处理方法,具体如下:
  
 解决数据的完整性问题:
  
 解题思路:数据缺失,那么补上就好了。
  
 补数据有什么方法?
  
 通过其他信息补全,例如使用身份证件号码推算性别、籍贯、出生日期、年龄等
  
 通过前后数据补全,例如时间序列缺数据了,可以使用前后的均值,缺的多了,可以使用平滑等处理,Matlab可以自动补全
  
 实在补不全的,虽然很可惜,但也必须要剔除。但是不要删掉,没准以后可以用得上
  
 解决数据的唯一性问题
  
 解题思路:去除重复记录,只保留一条。
  
 去重的方法有:
  
 按主键去重,用sql或者excel“去除重复记录”即可,
  
 按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重。
  
 解决数据的权威性问题
  
 解题思路:用最权威的那个渠道的数据
  
 方法:
  
 对不同渠道设定权威级别,例如:在家里,首先得相信媳妇说的。。。
  
 解决数据的合法性问题
  
 解题思路:设定判定规则
  
 设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除
  
 字段类型合法规则:日期字段格式为“2010-10-10”
  
 字段内容合法规则:性别 in (男、女、未知);出生日期<=今天
  
 设定警告规则,凡是不在此规则范围内的,进行警告,然后人工处理
  
 警告规则:年龄》110
  
 离群值人工特殊处理,使用分箱、聚类、回归、等方式发现离群值
  
 解决数据的一致性问题
  
 解题思路:建立数据体系,包含但不限于:
  
 指标体系(度量)
  
 维度(分组、统计口径)
  
 单位
  
 频度
  
 数据
  
 让数据更适合做挖掘或展示
  
 目标包括但不限于:
  
 高维度----不适合挖掘
  
 维度太低----不适合挖掘
  
 无关信息----减少存储
  
 字段冗余----一个字段是其他字段计算出来的,会造成相关系数为1或者主成因分析异常)
  
 多指标数值、单位不同----如GDP与城镇居民人均收入数值相差过大
  
 解决高维度问题
  
 解题思路:降维,方法包括但不限于:
  
 主成分分析
  
 随机森林
  
 解决维度低或缺少维度问题
  
 解题思路:抽象,方法包括但不限于:
  
 各种汇总,平均、加总、最大、最小等
  
 各种离散化,聚类、自定义分组等
  
 解决无关信息和字段冗余
  
 解决方法:剔除字段
  
 解决多指标数值、单位不同问题
  
 解决方法:归一化,方法包括但不限于:
  
 最小-最大
  
 零-均值
  
 小数定标

3. 数据清洗技术有哪些

数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以提高数据质量的过程。而通常来说,数据清洗框架由5个步骤构成,第一就是定义错误类型,第二就是搜索并标识错误实例,第三就是改正错误,第四就是文档记录错误实例和错误类型,第五就是修改数据录入程序以减少未来的错误。

清洗数据有三个方法,分别是分箱法、聚类法、回归法。这三种方法各有各的优势,能够对噪音全方位的清理。分箱法是一个经常使用到方法,所谓的分箱法,就是将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。

怎么分箱,我们可以按照记录的行数进行分箱,使得每箱有一个相同的记录数。或者我们把每个箱的区间范围设置一个常数,这样我们就能够根据区间的范围进行分箱。其实我们也可以自定义区间进行分箱。这三种方式都是可以的。分好箱号,我们可以求每一个箱的平均值,中位数、或者使用极值来绘制折线图,一般来说,折线图的宽度越大,光滑程度也就越明显。

数据清洗技术有哪些

4. 数据清洗需清理哪些数据

数据清洗需要清理的数据,是输入数据后需要对数据进行预处理,只有处理得当的数据才能进到数据挖掘的步骤。而处理数据包括对数据数量和质量的处理。

包括对缺失的数据有添补或删除相关行列方法,具体步骤自己判断,如果数据量本来就很少还坚持删除,那就是自己的问题了。

添补:常用拉格朗日插值或牛顿插值法,也蛮好理解,属于数理基础知识。(pandas库里自带拉格朗日插值函数,而且这个好处是还可以在插值前对数据进行异常值检测,如果异常那么该数据就也被视为需要进行插值的对象)。

删除:这个也好理解,就是对结果分析没有直接影响的数据删除。

异常值
这个是否剔除需要视情况而定
像问题1中视为缺失值重新插值
删除含有异常值的记录(可能会造成样本量不足,改变原有分布)
平均值修正(用前后两个观测值平均值)
综上,还是方案一靠谱。
人生苦短,学好python
3 数据量太多,有三种方法:集成,规约,变换
(1)数据是分散的时,这个就是指要从多个分散的数据仓库中抽取数据,此时可能会造成冗余的情况。此时要做的是【数据集成】。
数据集成有两方面内容:
①冗余属性识别②矛盾实体识别
属性:
对于冗余属性个人理解是具有相关性的属性分别从不同的仓库中被调出整合到新表中,而新表中由于属性太多造成冗余,这时可以靠相关性分析来分析属性a和属性b的相关系数,来度量一个属性在多大程度上蕴含另一个属性。等等。

数据清洗时预处理阶段主要做两件事情:

一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。

二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备。

数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。

5. 数据清洗的介绍

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

数据清洗的介绍

6. 数据清洗经验分享:什么是数据清洗 如何做好

如何去整理分析数据,其中一个很重要的工作就是数据清洗。数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。
清洗数据的方式大概可以分为以下几类,筛选、清除、补充、纠正,例如:
去除不需要的字段:简单,直接删除即可。但要记得备份。

填充缺失内容:以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标的计算结果填充缺失值。
格式不一致:时间、日期、数值、全半角等显示格式不一致,这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。例如一列当中储存的是时间戳,某些跨国公司的不同部门在时间的格式上有可能存在差别,比如2019-01-12,2019/01/12等,这时候需要将其转换成统一格式。

内容中有不需要的字符:某些情况使得有些数据中包含不需要的字符。例如从网络爬到的数据会包含一些编码解码的字符如%22,这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。

数据提取:例如咱们只有用户身份证的信息,但是需要用户生日一列,这时候我们可以直接从身份证号中按照一定规律将生日信息提取出来。

7. 数据清洗的方法

清洗数据有三个方法,分别是分箱法、聚类法、回归法。
1、分箱法
是一个经常使用到方法,所谓的分箱法,就是将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。
2、回归法
回归法就是利用了函数的数据进行绘制图像,然后对图像进行光滑处理。回归法有两种,一种是单线性回归,一种是多线性回归。单线性回归就是找出两个属性的最佳直线,能够从一个属性预测另一个属性。多线性回归就是找到很多个属性,从而将数据拟合到一个多维面,这样就能够消除噪声。
3、聚类法
聚类法的工作流程是比较简单的,但是操作起来确实复杂的,所谓聚类法就是将抽象的对象进行集合分组,成为不同的集合,找到在集合意外的孤点,这些孤点就是噪声。这样就能够直接发现噪点,然后进行清除即可。

扩展资料:
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。
我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成 。
参考资料来源:百度百科-数据清洗

数据清洗的方法

8. 数据挖掘中的数据清洗