数据质量系统DQ

刘超 14天前 ⋅ 930 阅读   编辑

目录

  1、为什么要开发数据质量

  2、质量规则

  3、开源方案

  

一、为什么要做数据质量

  1、数据定位:方便定位异常数据,类似这种问题
  2、数据异常:某天没数据,别人(运营等)告知,一太被动,二是别人问为啥没数据时,经常说的一句是“我去排查一下”,如果能提前知道任务失败,就能提前排查了,问的时候也能说一下原因了
  3、数据及时:检查处理不及时的任务,提醒开发者调优
  4、数据发布:比如我们每周都会跑一次受众,新跑的受众数据与已发布的有哪些差异、是否有空值等 现在都需要人工确认
  5、数据迁移:数据增加比较快,单靠python脚本做数据聚合,后续可能面临性能等问题,所以要做数仓 ,但现在数仓准备通过hive来做,现在面临异构数据源对比问题,就是数仓中的数据与tidb中数据必须保证一致,如果一致才能将hive中的数据发布到tidb中,进而去掉python脚本计算逻辑
  6、历史数据变更:最近我们发现波兰历史数据会有变化,我们需要监控哪天数据变化了,进而触发我们这边重新拉取、重新计算等
  7、 数据就位问题:计算user_index依赖opay数据,检查opay数据是否就位。一定时间未就位,通知他们

 

二、质量规则是数据质量管理系统的核心技术,优秀的数据质量管理产品应包含丰富的质量规则,并且易于扩展。该系统将会支持以下质量规则,满足业务系统运行、数据仓库建设、数据治理过程中各类规则的定义。

规则 开发状态 描述
差异检查 未开发
空值检查 未开发
值域检查 未开发
规范检查 未开发
逻辑检查 未开发
重复数据检查 未开发
异常数据检查 未开发
字段长度检测 未开发
记录缺少检查 未开发
及时性检查 未开发
波动检查 未开发
平衡值检查 未开发
离群值检查 未开发
sql检查 未开发
自定义检查   未开发

三、开发方案

  1、Apache griffin


注意:本文归作者所有,未经作者允许,不得转载

全部评论: 0

    我有话说: