案例名称
数据开发平台数据治理项目
案例简介
【资料图】
数据开发平台从业务数据使用角度出发,在宁波银行行内独立部署,着力于数据治理工作。
项目在数据治理功能上有三个方向的创新:一是实现数据质量的自动化巡检,提升数据价值;二是实现数据血缘的可视化,直观地看到数据从哪儿来往哪儿去;三是实现权限隔离及脱敏基础上的数据共享,保障数据安全。数据治理使得宁波银行的数据资产更加高质量、优架构,达到数据的高效使用。
该项目创新点在于将三大数据治理功能,从原先的复杂数据探查和加工工作打包成可一键生成的插件,在前端即可满足业务人员的日常使用。
创新技术/模式应用
一、数据质量
数据质量关系到数据应用的效果,能够实现高效的数据质量管理是数据治理的重要部分。数据开发平台自建数据质量功能,支持针对平台内数据设置质量监测规则、质量警戒线,同时支持手动/定时等多种调度方式,满足基础的数据质量自动化检测。
一是质量规则设置,为了降低对业务使用者的代码要求,简单的质量规则可以通过选择类型后,输入阈值的方式实现,例如表粒度的行数检查、字段粒度的唯一值检查。此外也支持复杂逻辑的自定义检查。
二是质量警戒线设置,为了方便进行报警后处置,可以选择“通过”、“告警”、“不通过”等多种警戒线类型,同时也支持短信、邮件等多渠道的推送。对于触及警戒线的规则,可以一键查看报告明细,快速定位问题数据。
三是调度类型设置,考虑到平台资源配置和质量监测实际情况,平台设计了单次、按周期、伴随数据更新等多种触发模式,更加符合实际使用场景。
此外,数据质量模块还配备了可视化看板,方便日常监测。
二、数据血缘
数据血缘可以体现数据的生命周期,厘清数据之间的关系与脉络,协助规范数据的设计。区别于传统的通过阅读代码定位上游数据,数据开发平台数据血缘模块将血缘分析与影响分析可视化,不仅可以追溯数据血缘,查清数据处理过程,还可以寻找依赖该数据的下游,评估数据更新时的影响范围。
除了数据表之间的血缘,该模块也能够支持展示表与bi可视化终端(仪表板/大屏/移动端等)的血缘关系,进一步扩大了功能范围。
三、数据安全
数据安全是在数据集成及共享的过程中需要格外注意的事项,在总分联动、获取更多数据的同时,也需要注意各机构对于数据的访问范围。数据安全模块主要包括权限隔离及数据脱敏两部分。
一是权限隔离设置。区别于拆分数据定向发放的旧模式,数据开发平台支持对同一张数据表进行权限隔离,分为行列两个级别。完成设置后,不同用户可见范围不同,在做到一人一表个性化访问的同时,并没有增加数据加工者的工作量。
二是数据脱敏设置,即对敏感信息通过脱敏规则进行数据的变形,实现对隐私数据的保护。针对身份证号等信息,数据脱敏可以使数据信息保持在可控内部,提高数据应用的合规性。区别于传统的底层数据库脱敏方式,数据开发平台可以做到更快速地响应脱敏需求,同时也有更高的兼容性,脱敏后的数据依然可以用于分析和测试。
此外,权限隔离与数据脱敏都具备模板方式,支持在不同数据上复用设置,提高数据应用的效率。
项目效果评估
数据开发平台数据治理项目弱化对代码的要求,更加方便业务人员的日常使用,同时也有效地缩短了各环节所需时间,提升工作效率。
1、自动化数据质量巡检,提高运维效率
近一年以来,数据开发平台已新增2000余个数据表,针对常见数据质量问题定制数据质量规则,实现了对关键表的日常巡检,通过智能化的方式对新增及每日跑批数据做出及时的诊断,批量化提高准确性,同时也解放了大量数据运维人力,降低人力成本。
2、改变传统模式,实现数据找人
相比较以往通过翻看代码定位上下游数据的“人找数据”方式,依靠数据血缘功能,能够清晰地展示数据的层级架构,实现数据追踪,快速锁定目标数据,展开全面的数据治理工作。
此外,数据血缘功能还能对数据使用情况进行统计,展示“热点数据”,为数据的进一步使用提供参考及指引,做到“数据找人”。
3、多维度的数据共享
数据开发平台建设以来,接入行内各类数据库的数据,进行定向化的权限限制和数据脱敏后,向不同机构、不同岗位的约900名行员开放,做到了“一人一表”,扩大数据共享范围的同时兼顾了数据安全规范。
项目牵头人
朱剑俊 宁波银行总行风险管理部副总经理
项目团队成员
周坚、韦达、吴旻龙、徐晓宁、王钧、颜伟斌、龚家颖、章莎莎、尤晨、林方鹏、李施雨、吕笛、郑超男、钱威、林鑫、李欣阳