相关推荐
数据治理之数据质量管理
2024-11-10 22:50

根据 Gartner 的数据质量市场调查,低质量数据每年使公司损失约 1500 万美元,数据质量管理对于处理低质量数据带来的问题是必要的。数据质量管理可以停止处理不准确数据浪费的时间和精力。低质量的数据可能会隐藏运营中的问题,并使合规性成为挑战。好的数据质量管理对于理解数据至关重要。

数据治理之数据质量管理

一.什么是数据质量?

数据质量是指数据符合预期目的。当数据准确地展示现实世界的真实情况时,会被认为是高质量的。而数据质量管理是一组旨在维护高质量信息的实践。数据质量管理从数据采集和高级数据流程的实施一直到数据的有效分发。它还需要对信息进行管理监督。有效的数据质量管理被认为对于任何一致的数据分析都是必不可少的,因为数据的质量对于从信息中获得可操作且更重要的准确见解至关重要。

二.数据质量的重要性

如今,公司的大部分运营和战略决策都严重依赖数据,因此质量的重要性更高。事实上,低质量数据是先进数据和技术计划失败的主要原因。更一般地说,低质量的数据会影响生产力、底线和整体投资回报率。

从客户关系管理到供应链管理,再到企业资源规划,有效的数据质量管理的好处可以对组织的绩效产生连锁反应。有了可用的质量数据,组织可以形成数据仓库,以检查趋势和制定面向未来的战略。

在整个行业范围内,数据质量的积极投资回报率是众所周知的。根据埃森哲的大数据调查,92%使用大数据进行管理的高管对结果感到满意,89%的高管认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营模式”。大企业的领导者清楚地了解优质数据的重要性。

高质量的数据有助于做出更好的决策:当今的市场必然是以消费者为中心。有了高质量的数据,企业将能够做出更好的决策。 

更好的团队协作:当一个组织的许多部门能够持续访问相同的高质量数据时,结果是更好、更有效的沟通。这使所有团队成员更容易在优先级、对外信息以及品牌方面保持一致。这将共同确保更好的结果。 

更好地了解客户:有了高质量的数据,公司就能够更好地评估客户的兴趣和要求。这有助于组织通过根据客户需求创造更好的产品来实现增长。然后,可以根据消费者的需求和来自数据的直接反馈来推动创建的营销活动,而不仅仅是基于有根据的猜测。 

改进业务流程:良好的数据还意味着团队可以确定运营工作流程中的故障点。对于供应链行业来说尤其如此,因为供应链依靠实时数据来确定适当的库存和发货后的位置。 

三.数据质量的评估

数据质量是根据多个维度进行评估的,这些维度可能因信息来源而异,有句俗话说,“垃圾进,垃圾出”,如果源头数据质量没有抓好,会导致数据分析应用难以进行,或者得到的分析结果价值也不大。因此在这条数据链路的供给侧,站在数据生产者或数据管理者的角度,可以从完整性、准确性、有效性、一致性、唯一性这些角度来进行数据质量的评估,而这六个维度也可以作为六个指标。

完整性 Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用。

规范性 Conformity:规范性用于度量哪些数据未按统一格式存储。 

一致性 Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的。 

准确性 Accuracy:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。

唯一性 Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。

关联性 Integration:关联性用于度量哪些关联的数据缺失或者未建立索引

以下是这六个指标的详细定义:

四.数据质量的问题来源

来源#1:并购

当两家公司以某种方式联合起来时,他们的数据就会融入这种新的工作关系中。然而,就像两个婚前有孩子的人建立新的关系一样,事情有时会变得一团糟。

例如,两家公司很有可能使用完全不同的数据系统。也许你们中的一个人有一个遗留数据库,而另一个人已经更新了东西。或者使用不同的方法收集数据。甚至有可能关系中的一个合作伙伴有很多不正确的数据。

来源#2:从遗留系统过渡

对于非技术用户来说,可能很难理解从一种操作系统切换到另一种操作系统所固有的困难。直觉上,外行会期望事情已经“设置好”,以便最终用户可以轻松无痛地进行转换。这绝对不符合现实

来源#3:用户错误

这是一个可能永远不会消失的问题,因为人类将始终参与数据输入,并且人类会犯错误。人们经常打错东西,这必须加以考虑。

五.数据质量的常见问题 

01:缺乏记录唯一性

一个拥有200-500名员工的普通组织使用大约123个SaaS应用程序。用于捕获、管理、存储和使用数据的应用程序数量庞大且种类繁多,是导致数据质量差的主要原因。在这种情况下最常见的问题是为同一实体存储多个记录。

02:缺乏关系约束

一个数据集通常引用多个数据。但是,当两个或多个不同的数据之间没有定义和强制执行任何关系时,最终可能会得到很多不正确和不完整的信息

03:缺乏参照完整性

参照完整性意味着数据记录与其引用对应物是真实的。要了解由于缺乏参照完整性而产生的问题,我们考虑一家零售公司的例子。一家零售公司可能将他们的销售记录存储在Sales表中,每条记录都提到在进行销售时售出的产品。因此,可能希望在Sales表中找到销售ID和产品ID。但是,如果Sales记录引用Product表中不存在的ProductID,则很明显数据集缺乏引用完整性

04:缺乏关系基数

关系基数是指两个实体之间可以拥有的最大关系数。通常,可以在数据对象之间创建不同类型的关系,这取决于公司允许如何进行业务交易。

参考以下示例以了解不同数据对象之间的基数,例如Customer、Purchase、Location和Product:

一个客户一次只能有一个位置

一个客户可以进行多次购买

许多客户可以来自一个位置

许多客户可以购买许多产品

如果基数约束没有明确定义,它可能会在数据集中引起许多数据质量问题

05:缺乏属性的唯一性和意义

我们经常发现与数据集属性或列相关的问题。很多时候数据模型没有明确定义,因此结果信息被认为是不可用的。发现的常见问题有:

存在具有相同名称的多个列,其中包含一条记录的不同信息。

存在具有不同名称的多个列,这在技术上意味着相同的事物,因此存储相同的信息。

列标题不明确,会使数据输入操作者混淆要在列中存储的内容

06:缺乏验证约束

大多数数据质量问题都是由于缺乏验证约束造成的。验证约束确保数据值有效且合理,并根据定义的要求进行标准化和格式化。例如,缺少对CustomerName的验证约束检查会导致以下错误:

名称中的额外空格(前导、尾随或中间的双空格),

使用不适当的符号和字符,

名称的长度太长

07:缺乏准确的公式和计算

数据集中的许多字段是从其他字段派生或计算得出的。因此,每次在相关字段中输入或更新新数据时,都会设计、实施并自动执行公式。公式或计算中存在的任何错误都可能导致数据集的整个列中获得不正确的信息

08:跨来源缺乏一致性

与数据相关的最常见挑战之一是在所有节点或数据源中维护关于同一“事物”的一个定义。例如,如果一家公司使用CRM和一个单独的计费应用程序,则客户的记录将出现在这两个应用程序的数据库中。随着时间的推移,在所有数据库中保持一致的客户信息视图是一项艰巨的任务

09:缺乏数据完整性

数据完整性是指数据集中存在必要的字段。数据集的完整性可以垂直(属性级别)或水平(记录级别)计算。通常,字段被标记为必填以确保数据集的完整性,因为并非所有字段都是必需的。

通常会在大量字段留空的数据集中发现此数据质量问题–大量记录。但空并不一定意味着不完整。数据集的完整性只能通过首先对数据模型的每个字段进行如下分类来准确衡量:

字段是必填项吗?意思是,它不能留空;例如,客户的名称。

该字段是可选的吗?意思是,它不一定需要填写;例如,客户的爱好字段

10:缺乏数据流通

数据老化得非常快——无论客户是否更换了他们的住址、电子邮件地址、联系电话等。此类更改可能会影响数据集的流通性,并导致产生数周或数月的旧数据,从而导致根据过时的信息做出关键决策

11:缺乏数据素养技能

尽管为保护数据及其跨数据集的质量做出了所有正确的努力,但组织中缺乏数据素养技能仍然会对数据造成很大的损害。员工经常存储错误的信息,因为他们不理解某些属性的含义。此外,他们不知道自己行为的后果,例如在某个系统或某个记录中更新数据会产生什么影响。

12:错误输入和其他人为错误

错误输入或拼写错误是最常见的数据质量错误来源之一。众所周知,人类在输入10,000个数据时至少会犯400个错误。这表明即使存在唯一标识符、验证检查和完整性约束,人为错误仍有可能产生并使数据质量下降。

六.数据质量的常见监控指标 入数据条数波动(近7天均值比较)

源系统表结构变更(表名、字段名、字段类型)

源系统表计算延迟,导致后续数据接入延迟

线上维表新增数值, 仓库未及时更新

对接入RDBMS表的主键、外键检查:是否重复

重要字段长度检查

空值检查

重要字段枚举分布检查:离散的,多数是维度字段,可以包含空值检查

值域检查:连续的,一般是事实字段,计算检查MAX MIN SUM AVG

日期合法性检查:是否有跨天日志,是否有不正常时间日志

数据与错误的比率:监控与整个数据集相比已知数据错误的数量。

空值数:计算数据集中有空字段的次数。

数据价值实现时间:评估从数据集中获得洞察所需的时间。

据转换错误率:该指标跟踪数据转换操作失败的频率。

数据存储成本:当存储成本上升而使用的数据量保持不变,或者更糟糕的是,数据量减少时,这可能意味着所存储的大部分数据的使用质量很低。

七.哪些人应该关注数据质量?

1.那些必须关注成本的人。例子包括零售商,石油和天然气公司,在过去四年中价格下跌了一半;政府机构,其任务是少花钱多办事;和医疗保健公司,它们必须在控制成本方面做得更好。通过清除由不良数据造成的浪费和隐藏的数据工厂来削减成本比不分青红皂白地裁员更有意义——并在这个过程中加强公司。

2.那些寻求将数据用于工作的人。公司包括销售或许可数据的公司、寻求通过数据货币化的公司、更广泛地部署分析的公司、试验人工智能的公司以及希望将运营数字化的公司。当然,组织可以使用载有错误的数据来实现这样的目标,许多公司都这样做了。但随着数据的改善,成功的机会也会增加。

3.那些不确定数据的主要责任应该归于何处的人。大多数业务人员欣然承认数据质量是个问题,但声称这是 IT 的职责范围。IT 人员也欣然承认数据质量是一个问题,但他们声称这是业务领域的问题——以及一种不安的停滞结果。现在是结束这种愚蠢行为的时候了。高级管理层必须将数据的主要责任分配给业务部门。

4.那些厌倦了使用他们不信任的数据做出决策的人。更好的数据意味着更好的决策和更少的压力。更好的数据还可以腾出时间专注于真正重要和复杂的决策

八.数据质量管理的角色和职责

数据质量管理过程是一个多方面的过程,涉及具有不同职责的各种专业人员。以下是数据质量管理工作组中最重要的一些角色:

1 数据质量经理

数据质量经理负责监督与数据质量相关的项目,并评估需要改进的地方。数据质量经理的职责包括:

与客户合作,确定和定义数据质量管理项目的要求。

分析需要管理的数据以确定它与这些要求的符合程度。 创建指标来衡量特定项目目标的进展情况。 实施可提高数据质量的新政策或流程。 随着时间的推移根据指标监控进度。

2 首席数据官 (CDO)

首席数据官 CDO 是C级主管,负责组织的数据资产。作为他们的核心职责,CDO 确保其公司的数据资产符合战略目标。随着越来越多的组织开始依赖数据驱动的决策制定,CDO 的角色近年来从战略数据管理演变为业务流程管理。CDO 的职责因组织而异,但通常包括以下内容:

建立与数据质量管理相关的组织目标。

制定组织数据资产的使用和控制政策。 监督这些政策的实施并建立衡量合规性的机制。 优先考虑数据质量项目。 跨组织部门整合数据质量。 对员工进行最佳实践培训。 在内部和外部倡导改进组织数据实践。 监督数据质量管理流程,以确保公司收集和使用的数据满足业务要求。 制定有关如何使用数据实现业务目标的策略。 3 数据管理员

数据管理员是一名专业人员,负责根据组织的数据治理策略制定有关数据使用和安全性的政策。此外,数据管理员可能负责分配资源以维护和更新数据库,确保遵循政策,并监控和报告数据质量。数据管理员的职责可能因项目而异,具体取决于他们的角色范围和他们在组织中的角色。

作为数据守门人,数据管理员在规划项目、审查报告、参与开发会议、设计新流程以及在必要时倡导变更方面发挥积极的领导作用。数据管理员与跨不同职能部门的团队合作,就如何在整个企业中最好地使用和管理数据相关信息建立共同点;这项工作通常需要就具有不同需求或优先事项的利益攸关方之间的跨职能差异进行谈判。

4 数据分析师

数据分析师是收集、分析和解释原始数据以发现模式的数据专业人员。数据分析师可以在许多行业找到,包括零售、金融、政府和医疗保健。他们的职责因行业而异,但通常包括:

从各种来源收集数据。

分析收集的数据。 设计和维护数据系统和数据库。 根据他们的发现做出预测。 与跨部门的同事进行清晰的沟通。 与程序员、工程师和组织高管合作,以增强流程、修改系统和构建数据治理策略。 数据分析师必须具备出色的组织能力才能跟踪大量信息。他们还必须与跨部门的人员进行有效沟通,例如不直接参与分析过程的 IT 人员或业务开发专业人员。 数据分析师与负责根据历史趋势创建预测模型并预测未来会发生什么的数据科学家密切合作。这两个职位需要相似的技能组合,尽管一个可能更专注于统计分析,而另一个更专注于预测建模。

5 大数据工程师

大数据工程师是使用大数据技术分析大型数据集的 IT 专业人员。大数据工程师设计、构建、分析、测试、维护、监控和管理复杂的公司数据基础设施系统。大数据工程师的工作包括管理关系数据库、列式数据库、分布式文件系统、缓存算法、信息检索方法和其他相关技术。

6 数据架构师

数据架构师负责设计公司的数据架构。这包括收集业务利益相关者的需求、分析当前数据结构以确定需要做什么以及为未来构建架构。

数据架构师是战略思想家,他们了解技术领域的任何变化将如何影响公司的数据环境。他们负责开发数据架构的所有技术方面,并确保它们与其他组织计划保持一致。他们还管理与 IT 合作伙伴和供应商的关系,并且必须具备出色的沟通技巧。

九.数据质量的管理

01 什么是数据质量管理?

数据质量管理就是 指对数据从计划,获取,存储,共享,维护,应用到消亡,这整个生命周期的每一个阶段可能引发的数据质量问题,进行识别,测量,监控,预警等一系列管理活动,并通过改善和提高组织的管理水平,使数据质量获得进一步的提高。

数据质量管理的终极目标:通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。我们可以简单地将数据质量管理理解为一种业务原则,需要将合适的人员、流程和技术进行有机整合,改进数据质量各维度的数据问题,提高数据质量。实际上,企业数据治理的各个关键领域和关键活动都是围绕如何提升数据质量,以获得更大的业务成果或经济利益而展开的。

数据质量管理是数据治理的重要组成部分,通常用在数据模型设计、数据资产管理、主数据管理、数据仓库等解决方案中。 数据质量管理可以是反应性的被动管理,也可以是预防性的主动管理。很多公司将数据质量管理的技术与企业管理的流程相结合,用来提升主动管理数据质量的能力,这是一个很好的实践

02 怎么做数据质量管理?

数据质量管理应秉持“预防为主,防治结合,持续优化”的理念,管理贯穿数据的生命周期,加强事前预防、事中控制、事后补救的各种措施,以实现业务数据质量的持续提升

上图比较全面的列举了数据质量管理各环节涉及的管理要素和活动。

1)事前预防

事前预防即防患于未然,是数据质量管理的上上之策。数据质量管理的事前预防可以从组织人员、标准规范、制度流程三个方面入手。

1、加强组织建设

企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织机制的保障

(1)组织角色设置

企业在实施数据质量管理时,应考虑在数据治理整体的组织框架下设置相关的数据质量管理角色,并确定他们在数据质量管理中的职责分工

(2)加强人员培训数据不准确的主要原因是人为因素,加强对相关人员的培训,提升人员的数据质量意识,能够有效减少数据质量问题的发生2、落实数据标准 数据标准的有效执行和落地是数据质量管理的必要条件。数据标准包括数据模型标准、主数据和参考数据标准、指标数据标准等。 3、制度流程保障

(1)数据质量管理流程

数据质量管理是一个闭环管理流程,包括业务需求定义、数据质量测量、根本原因分析、实施改进方案、控制数据质量,如下图所示。

① 业务需求定义

我的一贯主张是:企业不会为了治理数据而治理数据,背后都是为了实现业务和管理的目标,而数据质量管理的目的就是更好地实现业务的期望。

第一,将企业的业务目标对应到数据质量管理策略和计划中。

第二,让业务人员深度参与甚至主导数据质量管理,作为数据主要用户的业务部门可以更好地定义数据质量参数。

第三,将业务问题定义清楚,这样才能分析出数据数量问题的根本原因,进而制定出更合理的解决方案。

② 数据质量测量

数据质量测量是围绕业务需求设计数据评估维度和指标,利用数据质量管理工具完成对相关数据源的数据质量情况的评估,并根据测量结果归类数据问题、分析引起数据问题的原因。第一,数据质量测量以数据质量问题对业务的影响分析为指导,清晰定义出待测量数据的范围和优先级等重要参数。第二,采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下的方法是以业务目标为出发点,对待测量的数据源进行评估和衡量;自下而上的方法是基于数据概要分析,识别数据源问题并将其映射到对业务目标的潜在影响上。第三,形成数据治理评估报告,通过该报告清楚列出数据质量的测量结果。

③ 根本原因分析

产生数据质量问题的原因有很多,但是有些原因仅是表象,并不是根本原因。要做好数据质量管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。

④ 实施改进方案

没有一种通用的方案来保证企业每个业务每类数据的准确性和完整性。企业需要结合产生数据问题的根本原因以及数据对业务的影响程度,来定义数据质量规则和数据质量指标,形成一个符合企业业务需求的、独一无二的数据质量改进方案,并立即付诸行动。

⑤ 控制数据质量

数据质量控制是在企业的数据环境中设置一道数据质量“防火墙”,以预防不良数据的产生。数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口设置的数据问题测量和监控程序,在数据环境的源头或者上游进行的数据问题防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。

(2)数据质量管理制度数据质量管理制度设置考核KPI,通过专项考核计分的方式对企业各业务域、各部门的数据质量管理情况进行评估。以数据质量的评估结果为依据,将问题数据归结到相应的分类,并按所在分类的权值进行量化。总结发生数据质量问题的规律,利用数据质量管理工具定期对数据质量进行监控和测量,及时发现存在的数据质量问题,并督促落实改正。数据质量管理制度的作用在于约束各方加强数据质量意识,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源、主动解决。 2)事中控制数据质量管理的事中控制是指在数据的维护和使用过程中监控和管理数据质量。通过建立数据质量的流程化控制体系,对数据的创建、变更、采集、清洗、转换、装载、分析等各个环节的数据质量进行控制

1、加强数据源头的控制 从数据的源头控制好数据质量,让数据“规范化输入、标准化输出”是解决企业数据质量问题的关键所在。企业可以考虑从以下几个方面做好源头数据质量的管理。

(1)维护好数据字典数据字典是记录标准数据、确保数据质量的重要工具。数据会随着时间累积,如果数据积累在电子表格等非正式数据系统中,那么这些宝贵的数据就可能会存在一定的风险,例如可能会随着关键员工的离职而丢失。通过建立企业级数据字典对企业的关键数据进行有效标识,并清晰、准确地对每个数据元素进行定义,可以消除不同部门、不同人员对数据可能的误解,并让企业在IT项目上节省大量时间和成本。

(2)自动化数据输入数据质量差的一个根本原因是人为因素,手动输入数据,很难避免数据错误。因此,企业应该考虑自动化输入数据,以减少人为错误。一个方案,只要系统可以自动执行某些操作就值得实施,例如,根据关键字自动匹配客户信息并自动带入表单。

(3)自动化数据校验对于疾病,预防比治疗更容易,数据治理也一样。我们可以通过预设的数据质量规则对输入的数据进行自动化校验,对于不符合质量规则的数据进行提醒或拒绝保存。数据质量校验规则包括但不限于以下几类。

数据类型正确性:数字、整数、文本、日期、参照、附件等。

数据去重校验:完全重复的数据项、疑似重复的数据项等。

数据域值范围:最大值、最小值、可接受的值、不可接受的值。

数据分类规则:用来确定数据属于某个分类的规则,确保正确归类。

单位是否正确:确保使用正确的计量单位。 

(4)人工干预审核数据质量审核是从源头上控制数据质量的重要手段,采用流程驱动的数据管理模式,控制数据的新增和变更,每个操作都需要人工进行审核,只有审核通过数据才能生效。例如:供应商主数据发生新增或变更,就可以采用人工审核的方式来控制数据质量.

2、加强流转过程的控制 

数据质量问题不止发生在源头,如果以最终用户为终点,那么数据采集、存储、传输、处理、分析中的每一个环节都有可能出现数据质量问题。所以,要对数据全生命周期中的各个过程都做好数据质量的全面预防。数据流转过程的质量控制策略如下。(1)数据采集在数据采集阶段,可采用以下质量控制策略: 明确数据采集需求并形成确认单; 数据采集过程和模型的标准化; 数据源提供准确、及时、完整的数据; 将数据的新增和更改以消息的方式及时广播到其他应用程序; 确保数据采集的详细程度或粒度满足业务的需要; 定义采集数据的每个数据元的可接受值域范围; 确保数据采集工具、采集方法、采集流程已通过验证。

(2)数据存储

在数据存储阶段,可采用以下质量控制策略: 选择适当的数据库系统,设计合理的数据表; 将数据以适当的颗粒度进行存储; 建立适当的数据保留时间表; 建立适当的数据所有权和查询权限; 明确访问和查询数据的准则和方法。

(3)数据传输在数据传输阶段,可采用以下质量控制策略: 明确数据传输边界或数据传输限制; 保证数据传输的及时性、完整性、安全性; 保证数据传输过程的可靠性,确保传输过程数据不会被篡改;

明确数据传输技术和工具对数据质量的影响。

(4)数据处理在数据处理阶段,可采用以下质量控制策略: 合理处理数据,确保数据处理符合业务目标; 重复值的处理; 缺失值的处理; 异常值的处理; 不一致数据的处理。 

(5)数据分析 确保数据分析的算法、公式和分析系统有效且准确; 确保要分析的数据完整且有效; 在可重现的情况下分析数据; 基于适当的颗粒度分析数据; 显示适当的数据比较和关系。 事中控制的相关策略

  3、事中控制的相关策略

(1)质量规则的持续更新

数据质量管理不是一次性的工作,而是一个不间断的过程,企业需要定期检查数据质量规则对业务的满足度,并不断改进它们。另外,企业和业务环境在不断变化,因此企业需要提出新的数据质量规则来应对这些变化。

(2)数据质量的持续监控

DQAF给出了一种数据质量的持续监控方法,叫作联机测量,它强调利用数据质量管理工具的自动化功能,将定义好的数据质量规则作用于数据测量对象(数据源),实现对数据质量有效性的持续性检查,以便发现数据质量问题和确定改进方案。

(3)使用先进的技术

我们可以利用人工智能技术来进行数据质量监控、评价和改善,以应对不断增加的数据和日趋复杂的数据环境等的挑战。人工智能技术在数据质量管理中的应用包括:

更好地识别和解析企业的数据;

更好地了解和量化数据质量;

更好地进行数据质量问题分析;

更好地进行数据匹配和删除重复数据;

更好地丰富企业的数据。

(4)数据质量预警机制数据质量预警机制用于对在数据质量监控过程中发现的数据质量问题进行预警和提醒。例如,通过微信、短信的形式提醒数据管理员发生了数据质量问题,通过电子邮件的形式向数据管理员发送数据质量问题列表等,以便相关人员及时采取改善或补救措施。

(5)数据质量报告数据质量报告有利于清晰地显示数据质量测量和评估情况,方便相关数据质量责任人分析数据问题,制定处理方案。数据质量报告有两种常见的形式:一种是以仪表板的形式统计数据质量问题,显示数据质量KPI,帮助数据管理者分析和定位数据质量问题;另一种是生成数据质量问题日志,该日志记录了已知的数据问题,能够帮助企业预防数

3)事后补救是不是做好了事前预防和事中控制就不会再有数据质量问题发生了?答案显然是否定的。事实上,不论我们采取了多少预防措施、进行了多么严格的过程控制,数据问题总是还有 “漏网之鱼”。你会发现只要是人为干预的过程,总会存在数据质量问题,即使抛开人为因素,数据质量问题也无法避免。为了尽可能减少数据质量问题,减轻数据质量问题对业务的影响,我们需要及时发现它并采取相应的补救措施。

1、定期质量监控 定期质量监控也叫定期数据测量,是对某些非关键性数据和不适合持续测量的数据定期重新评估,为数据所处状态符合预期提供一定程度的保证。定期监控数据的状况,为数据在某种程度上符合预期提供保障,发现数据质量问题及数据质量问题的变化,从而制定有效的改进措施。定期质量监控就像人们定期体检一样,定期检查身体的健康状态,当某次体检数据发生明显变化时,医生就会知道有哪些数据出现异常,并根据这些异常数据采取适当的治疗措施。对于数据也一样,需要定期对企业数据治理进行全面“体检”,找到问题的“病因”,以实现数据质量的持续提升。

2、数据问题补救 尽管数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%的数据问题防治,甚至过于严格的数据质量控制还会引起其他数据问题。因此,企业需要不时进行主动的数据清理和补救措施,以纠正现有的数据问题。

(1)清理重复数据对经数据质量检核检查出的重复数据进行人工或自动处理,处理的方法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果重复的记录不完全相同,则将两条记录合并为一条,或者只保留相对完整、准确的那条。(2)清理派生数据派生数据是由其他数据派生出来的数据,例如:“利润率”就是在“利润”的基础上计算得出的,它就是派生数据。而一般情况下,存储派生出的数据是多余的,不仅会增加存储和维护成本,而且会增大数据出错的风险。如果由于某种原因,利润率的计算方式发生了变化,那么必须重新计算该值,这就会增加发生错误的机会。因此,需要对派生数据进行清理,可以存储其相关算法和公式,而不是结果。

(3)缺失值处理处理缺失值的策略是对缺失值进行插补修复,有两种方式:人工插补和自动插补。对于“小数据”的数据缺失值,一般采用人工插补的方式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,一般采用自动插补的方式进行修复。(4)异常值处理异常值处理的核心是找到异常值。异常值的检测方法有很多,大多要用到机器学习技术

3、持续改进优化 数据质量管理是个持续的良性循环,不断进行测量、分析、探查和改进可全面改善企业的信息质量。通过对数据质量管理策略的不断优化和改进,从对于数据问题甚至紧急的数据故障只能被动做出反应,过渡到主动预防和控制数据缺陷的发生。

经过数据质量测量、数据问题根因分析以及数据质量问题修复,我们可以回过头来评估数据模型设计是否合理,是否还有优化和提升的空间,数据的新增、变更、采集、存储、传输、处理、分析各个过程是否规范,预置的质量规则和阈值是否合理。如果模型和流程存在不合理的地方或可优化的空间,那么就实施这些优化。事后补救始终不是数据质量管理的最理想方式,建议坚持以预防为主的原则开展数据质量管理,并通过持续的数据质量测量和探查,不断发现问题,改进方法,提升质量。

十.总结

    以上就是本篇文章【数据治理之数据质量管理】的全部内容了,欢迎阅览 ! 文章地址:http://yybeili.xhstdz.com/quote/70235.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://yybeili.xhstdz.com/mobile/ , 查看更多   
发表评论
0评