企业大数据

干货:企业数据质量提升实践的几个关键点

  大数据数字时代的新型战略资源,也是服务创新、驱动发展的重要抓手。

由于大数据具有分散存储+整合使用、分析处理时间及空间复杂度高、数据整体及其关系协同呈现高价值的三大特征,因此数据质量往往难以保障。但数据质量对于使用、用好大数据起到决定性的作用。质量低不仅会降低决策质量,难以获得高质量的产品和长足的发展,更可能带来难以估量的灾难性损失。本文先从数据质量的概念入手,通过对常见数据质量问题的归纳总结与根源分析,展开对数据质量管理体系的构建思路介绍,然后着重讲解了评价数据质量高低的方法,以及如何用数据质量管理工具对数据质量问题进行有效监控和分析,最后对数据质量管理工作未来的挑战和威胁进行展望。

  — 数据质量的概念 —

  在企业实际使用和管理数据时,尤其在涉及跨业务的流程数据拉通或者尝试跨系统、跨组织的数据交互时,企业中的多个部门可能都会对数据质量提出质疑,但业务部门和信息部门却分别有不同的侧重点。比如业务人员最多的对数据质量抱怨可能会是“这数据很难用,各种坑”、“这数据我用不了,没权限”,甚至直接默默地不再使用数据而去寻找其他的解决办法;而IT人员面对扑面而来抱怨也是一肚子苦水,内心默念“我也无能为力,这些问题我解决不了”。尤其是企业建设信息系统越多,拥有的业务功能的数据越完整,却不能顺利的通过数据来支撑和驱动业务时,内部更容易产生挫败情绪。

  — 质量问题的归纳与分析—

  基于实践中遇到的大量而广泛的数据质量问题,我们从人员、流程、技术和信息等多个方面总结了引起数据质量问题的十个常见原因。

  1、数据的多源性:当同一个数据有多个数据来源时,很可能会导致不同的值,这在系统设计和业务流程设计时都可能会引起这一问题。但是,很多企业往往会忽视数据多源性这个根源,因为企业内部的多个数据生产流程绝大部分时间依旧是独立运作,持续地产生着不同的数据值,导致这个根源很难被直接察觉。

  2、数据生成过程中的主观判断:如果在数据的生成过程中包含主观判断结果,那么会导致数据中含有主观偏见因素。通常认为存储在数据库中的数据都是客观事实,却忽略了采集这些“事实”的过程可能存在主观的判断。

  3、计算资源有限:缺乏足够的计算资源会限制相关数据的可访问性。

  4、安全性和可访问性之间的权衡:数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对数据消费者而言,必须能够访问高质量的数据;同时,出于保护隐私、保密和安全性的考量,必须对访问设置权限。因此,高质量的数据可访问性与数据的安全性之间就产生了冲突。

  5、跨学科的数据编码:由于缺乏不同专业领域的数据编码互相映射或缺乏可解释性,因此对于不同专业领域的编码总是难以辨识和理解,这也导致了数据采集的不全面和检索不到相应的信息。

  6、复杂数据的表示方法:对于文本和图像数据等数据,其可分析性很差且没有定义属性,不能进行汇总、处理数据以及判断变化的趋势,为数据的处理带来不便。

  7、数据量过大:过大数据量会使数据消费者难以在合理的时间内获得所需的数据。

  8、输入规则过于严苛或被忽视:过于严苛的数据库编写规则或不必要的数据输入规则引入,都可能会导致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变某个或某些字段的值,或者由于某些值无法输入对应的字段而丢弃整条记录。

  9、数据需求的改变:当数据消费者的任务和组织环境发生变化时,所谓“有用的”数据也随之改变,只有满足数据消费者需求的数据才是高质量的数据。

  10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问性。

  在对这十大类根源问题进行分析后,可以制订相应的干预方案。比如针对数据多样来源,我们可以制定一些规则,只保留一个数据源、只允许更新这个数据源的数据,并只从这个数据源向其他副本同步数据,如设定企业标准并建立好映射,来辨别同义词和同形异义词等。

  — 数据质量管理体系介绍—

  在归纳了数据质量问题产生的原因并判断发现有效的干预措施后,为了系统性、持续有效的进行数据质量提升,我们设计了这套数据质量管理体系。

  这个体系包括五大部分,中间最上层的是数据质量管理战略,包括数据质量管理的愿景和原则。在实践中我们发现,获得企业高层对数据质量提升项目的认可和支持是施行有效质量管理最重要的一个挑战,规划一个与企业战略一致、并且清晰可行的数据管理战略,是数据质量提升的关键起点。图中左边是数据质量管理体系,包括数据质量管理的组织架构,角色、职责、岗位和流程机制等。管理体系的建立要确保数据质量政策及其流程与企业战略、经营方针和业务流程保持一致,并围绕数据质量进行角色及其职责的划分;同时还要积极主动地调整管理策略以应对数据需求的变化,把保持数据质量成果的工作纳入业务日程,营造一个有利于学习和鼓励创新数据质量活动的环境。图中右边是需要对接数据安全管理体系,就像前面提到的那样,数据安全和数据质量中的可访问性在本质上是矛盾的,因此需要创建一种机制来找到两者之间的平衡。

  图中间是数据质量管理过程和数据质量管理工具。数据质量管理过程从数据使用出发,首先根据业务痛点和数据质量问题的成本价值分析,经过对数据剖析、追踪根本并制定体系化的解决方案并实施后,将其放入日常的运营监控中,把数据质量切实提升并积极的保持长效。

  数据质量管理工具是来支持更快更有效实现数据管理过程的手段,它承接了数据标准管理和元数据管理两个模块的管理成果,通过企业内的数据标准和具体业务规则来设计制定数据质量规则,结合元数据管理对要进行评测的数据集进行抽样抽取,并把数据质量规则映射到对应的元数据上。通过运行数据质量检查作业,可以定期或不定期的得到数据质量评估报告,并不断收集数据质量问题,为数据质量的管理提供决策支持。数据质量管理过程和数据质量管理工具两个部分是紧密有序的工作组合:管理过程层往管理工具层输出具体的质量规则制定方向、原则甚至具体规则,管理工具层可以往管理过程层输出具体质量问题的预警以及实体与统计类的描述,来支撑更进一步的数据质量PDCA闭环提升。

  — 数据质量管评价方法—

  实际上,在开展具体的数据质量提升项目之前,第一个工作是收集和评估具体的数据质量问题。数据质量评估方法主要包括三大步:第一步,通过访谈或者问卷的形式调查数据消费者对数据质量的描述和期望,同时,使用数据质量指标来多维度的实际测量数据质量情况;第二步,需要对比主观和客观的两种评估结果,分析两者的差距,并确定差距产生的原因;第三部,是沟通、确定提升方案,并组织实施必要的行动。

  在定量评估数据质量时,需要量化数据质量的测量维度,并与各相关部门确定每个测量指标的阈值。通常我们使用以下六个维度:

  准确性:描述数据是否正确,又叫正确性、无误性。通常准确性是个综合性指标,由多个二级指标组成,二级指标需要通过业务规则先将错误数据定义出来,进而进行计算。

  完整性:完整性可以从三个层面来看,分别是架构完整性,属性完整性,数据集完整性。其中,架构完整性是指数据架构的实体和属性没有缺失的程度,属性完整性是指一张表中的一列没有缺失的程度,或者对于无效属性的度量;数据集完整性是指数据集中应该出现而没有出现的数据成员的程度。

  一致性:一致性也可以从三个视角来看:参照一致性、相关数据元素之间的一致性和不同表中相同数据元素形式的一致性。参照一致性是与从属表(可以理解为值域表)中的值不匹配的行数;元素一致性是指如城市名字和邮政编码应该是一致的,输入邮编就能自动匹配正确对应的城市名字;形式一致性,通常不做必须检查的要求,根据实际业务需求来判断。

  规范性:在《GB/ T36344 — 2018数据质量评价指标》中的定义是指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。在实践中,通常如果企业在制定相关标准规范的时候考虑了国标和行业惯例,并且在实际落地时也进行了良好的管控,则规范性大部分都可满足,不需要额外定量测量。

  可访问性:可访问性衡量的是获取数据的难易程度,强调了时间的重要性。这个指标权衡了用户需要数据的时间和提供数据所需的时间。如果一个数据消费者需要近5天的数据,而获取它也需要五天的时间,那么大概率这个数据对这位数据消费者是无效的。

  时效性:更多的是指及时性,指标比较复杂,需要用到发布时间、输入时间,年限,敏感性指数,波动时长等指标。这类复杂指标通常在企业里不会计算,通常用数据年龄就足够了。来衡量数据是否过时。

  最后,还有很多根据业务规则衍生出来的数据质量规则,如从业务上衡量了业务系统的可信度,或者与内部标准或行业惯例相比的数据可信度以及数据量的适量性等,都需要根据实际情况再制定量化方式。

  在开始测量数据质量之前,企业必须明确哪些维度对自己重要,并精确的定义这些维度。对于包含多个二级指标的维度来说,哪些维度对哪些数据源要衡量和监控、哪些二级指标是重要的也是需要由企业自己决定并定义的。

  — 选取用于数据质量定量计算的数据集—

  在数据质量定量测量维度和阈值都确认之后,需要做的一步工作是对评估数据集进行数据抽取。通常是使用数据抽样的形式,个别表也需要全量抽取,而这一步在大数据平台上由于计算资源和存储空间的丰富而经常可以省略。

  首先,确定需要被抽数的数据表,以及其属性范围或日期范围。这个通常是根据业务问题或数据质量问题分析来判断的。其次是了解数据集的数据质量轮廓,如果数据集的数据错误率太高,那抽样的目标就是也抽出一个类似错误率的数据集。

  选定抽样方式后,接下来是要清晰的定义抽取的数据集数量,比如也可以针对一个特大的数据集进行多次抽样。然后,需要明确精度和置信水平,精度是指重复抽样试验中在特定置信水平下可以接受的误差,这将直接影响所需的样本量。因此需要在精度、置信水平和样本量之间寻求平衡,通常来说样本量越大,精度也越高。

  接下来,就是要将数据质量指标的计算规则与实际选定的数据集进行映射,并形成脚本运行,然后对运营结果进行展示和分析,支持数据质量提升管理者做出正确的决策。在实际项目中,这一步是借助数据质量工具来完成。因此,一个科学、易用的数据管理工具就越显重要。

  — 星环数据平台管理工具Studio 2.0介绍—

  通过一个简单的数据质量管理过程,给大家介绍一下星环大数据平台管理工具包Studio 2.0中的数据质量管理核心功能。

  以检查实体完整性为例,实体完整性检查的主要是每张表的所有主键和候选键是否非空且唯一。在开始使用之前,质量分析或管理人员可以通过Studio 2.0先自己定义完整性原则,形成“实体完整性”的检查模板。然后,到“质量检查模板”中,找到完整性菜单,从中选择“实体完整性”,并在定义菜单栏里面选择每张表的主键和候选键字段。

  然后,切换到“质量任务”选项,指定数据抽取的方式和数量,对数据集进行抽样并设计质量测量任务运行的时间,让系统测量违反实体完整性原则的记录数量。

  在统计完成后,可以选择“质量报告”选项,使违反原则的统计数据以数字、图表或者报告的形式呈现出来。报告的模板也可以根据偏好进行设计,也可以选择消息提醒的方式来告诉数据质量都出现了哪些问题,点击其中的一个问题后还可以看到一个违反原则的数据对象的实例。

  除了包括数据质量管理的功能,星环Transwarp Data Studio 2.0工具包还包括数据标准管理、元数据原理,数据资产目录管理,数据智能治理等多个模块。这些模块之间以数据管理流程为驱动,依托工作流引擎,有机形成各数据管控功能的互动,也会继续以数据管理,数据资产管理,数据质量管理的用户需求为中心,打造数据管理的极佳体现。

  在评估数据质量之后,还需要对造成数据质量问题的根因进行分析,从而制定一个体系化能落地的数据质量提升行动方案。

  — 数据质量管理工作的未来展望—

  到这里,数据质量提升之旅结束了吗?答案是否定的。人们常说,世上唯一不变的就是变化,企业所处的环境始终处于变革之中,新的机遇不断涌现,新的挑战也层出不穷。对于数据质量来说,这就可能意味着每当先前的问题成功解决,持续的变化则令历史重演,也许组织会重复先前的错误,成功改善的数据质量又退回到原来的状态。

  随着数据集成的深度和广度迅速加大,数据质量可能面临巨大挑战,同时也带来安全性方面的更高要求。但积极的一面是,尽管组织所处的环境在变化、遇到的新问题在涌现,但对应的研究也在继续,新的知识被发现,新的技术得以开发和应用。比如数据挖掘技术的不断深化和推广应用,尤其是在数据清洗和数据预准备环节中的数据处理技术,为改善数据质量和解决数据质量问题时都起到了很好的作用。

  你对这篇大数据文章有什么看法呢?欢迎在下方评论区各抒己见。

发表评论

电子邮件地址不会被公开。 必填项已用*标注