当前位置:主页 > 什么是数据清洗
什么是数据清洗
作者:云社区 2020-08-31 00:36
当生活中被大数据所充实,数据分析也与我们的日常息息相关。数据清洗是进行数据分析时极为重要的一步。那么究竟什么是数据清洗呢,在进行数据清洗时,常见的问题又有哪些呢,本文将做出简单的介绍。
一、数据清洗含义:
检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。通俗来讲就是把脏数据清洗掉,提高数据质量。
二、数据清洗的常见问题:
1.数据清洗常见问题之处理离群点
对离群点最简单的解释是:离群点是和其余数据不匹配的数据点。按照惯例,任何过高、过低或者异常(基于项目背景)的数据都是离群点。作为数据清洗的一部分,数据科学家通常要识别出离群点并用通用的方法解决它:
· 删除离群点的值,甚至是离群点对应的实际变量。
· 转换变量值或变量本身。
2.数据清洗常见问题之改善数据
通过改善进行数据清理是另一种常见的技术,添加相关信息、事实或数据使得数据变得完整(可能更有价值)。这些附加数据的来源可以是用数据中现有信息或从其他来源添加信息进行计算。 基于当前的目的或目标,数据科学家补充的信息可能用于参考、比较、对比或发现趋势。

典型的用例包括:
衍生事实计算
对比日历与财政年度的使用
转换时区
货币转换
添加当前和前期指标
计算价值,如每天总出货量
保持缓慢变化的维度
3. 数据清洗常见问题之数据调和
基于研究分析的整体目标,数据科学家可以通过数据调和来转换、翻译、或将数据值映射到其他理想值。最普遍的案例是性别或国家代码。例如,如果你的文档中将性别编码为0和1或M和F,你想将数据转化为一致的MALE或FEMALE。
4.数据清洗常见问题之标准化
大多数主流数据科学家都已经注意到在开始统计研究或分析项目之前,将数据标准化作为数据清理过程一部分的重要性。这是很重要的,如果没有标准化,量纲不同的数据点对分析的贡献会不均等。
如果你认为在0到100之间的数据点比0到1范围内的变量影响更大,你可以理解数据标准化的重要性。使用这些未经过标准化的变量,事实上在分析中赋予较大范围的变量更多的权重。为了解决这一问题并均衡这些变量,数据科学家试图将数据转化为可比的量纲。
数据点的中心化是数据标准化中最常见的例子(尽管还有很多)。为了使数据点中心化,数据科学家把文件中的每个数据点减去所有数据的平均值。
综合全文,数据清洗并没有人们想象中的复杂,简单来说,就是进行脏数据的处理,而数据清洗的常见问题主要包括四点,即处理离群点、改善数据、数据调和以及标准化。
如果您发现本站中涉嫌抄袭的内容,欢迎发送邮件至:liping@yovole.com(邮件中#请改为@)进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
有孚网络
企业级云计算运营商
有孚网络企业级云计算运营商,公司以云计算(Cloud Computing)、云计算数据中心(Data Center)等为主营业务,致力于让企业信息化更简单!
有孚云符合三级等保、可信云、ISO系列等众多安全运维规范,支持驻地化部署、混合云部署和多云互通管理。
立即了解
相关文章