查看原文
其他

数字经济时代,元数据驱动的数据治理还重要吗?

李然辉 DataFunSummit
2024-09-11

导读 大家好,我是李然辉,在京东科技负责数据资产管理工作。今天分享的主题是元数据驱动的数据治理。元数据是描述数据的数据,元数据驱动的数据治理是一种新的方法,是指通过侧重元数据来管理、控制和利用数据,利用元数据去更深入地了解所拥有的数据,了解数据质量,以确保正确、安全地使用数据。元数据驱动的数据治理还有助于通过提供对数据上下文含义的清晰理解,来建立数据的信任和透明度。

下面从以下三个方面来展开分享:

1. 我们面临的时代背景

2. 元数据驱动的数据治理案例

3. 未来展望

分享嘉宾|李然辉 京东科技 数据资产管理团队负责人

编辑整理|刘波特

内容校对|李瑶

出品社区|DataFun


01

我们面临的时代背景

1. 数字经济时代,数据治理是释放数据资产价值的基础

近年来中国的数字经济呈现出快速发展的趋势。据统计,在 2022 年我国数字经济规模达到了 50.2 万亿元,大约占 GDP 的 41.5%。但是从全球来看,我们位居第二,离第一名美国还差很远,只有其一半。我们不仅仅要追赶美国领先的企业,扩大自身规模,还希望去做数字经济时代的规则制定者,比如我国提出了数据资产入表。

数字经济的发展离不开数据资产,数据资产管理是在数据管理的基础上,对数据资产价值、运营等内容进行了一些扩展。数据管理的核心离不开数据治理,如果没有数据治理,很难长期地、源源不断地提供高质量的数据,也就很难保证数据的价值以及对应用场景的支撑,也难以规避安全风险。因此数据治理是数字经济发展的基础。

2. 传统数据治理方法在大数据环境中不适应

大数据具有 5V 特征(如下图所示),使其与传统数据治理相比,会面临更多挑战。比如技术和存储能力的爆炸式增长,加快了数据量、种类和速度的变化,对大量的结构化、非结构化、实时数据的治理面临着新的挑战。

在大规模的数据下,数据标准化的程度相对较低,很难对大量的数据制定数据标准,进行数据质量的管理,使得质量问题变得更多,对数据质量的要求也变得更高,因为只有保证数据质量,才能真正实现数据价值。

在数据量日益庞大的背景下,如果管理不同价值水平的数据?如何在安全合规的情况下充分利用数据?如何保护数据安全?以及在这种数据环境背景下,该怎样进行数据治理?这些问题都造成了传统数据治理方法在大数据环境中的不适应。

3. 从新的架构发展趋势来看,需要数据治理和目录支撑-Data Fabric

从整个数据架构的发展趋势来看,需要数据治理和目录的支撑。数据治理和目录是Data Fabric 的关键要求。

Data Fabric,即数据编织,本质上是一种元数据驱动的方式,主要侧重数据的集成,并在整个组织内提供一致的数据视图。Data Fabric 的主要组成部分包括数据治理、数据目录、元数据市场。

Data Fabric 有 6 项核心能力:
  • 先是增强的数据目录,这也迎合了新架构的发展趋势。数据目录是整个 Data Fabric 的架构基础,通过对元数据进行组织和管理,在目录上使用机器学习和人工智能的自动化收集和分析技术,把所有的元数据进行归集,包括技术元数据,比如数据的类型、格式等;业务元数据,比如业务定义,业务策略、业务关系等;操作元数据,比如数据血缘、数据性能等;另外还包括了社交元数据,比如数据的评价等。
  • 二是语义知识图谱。通过机器学习和人工智能的算法,进行实体和实体关系的量化,以识别或者添加更丰富的数据间的关系,包括多个孤岛之间的数据关系、数据的上下文以及语义的相关性等等。
  • 三是主动元数据。以前更多管理的是静态的、被动的元数据。现在通过人工智能和机器学习可以辅助生成主动元数据,支持自动化的数据集成、数据交付的基础能力。连接所有形式的元数据,形成独特并且不断变化的关系,并以图这种易于理解的方式去呈现元数据的关系。
  • 四是推荐引擎。推荐引擎是与业务相关的,它将专家的经验形成规则,或基于模型学习的结果,结合主动元数据,进行数据质量的监控以及数据准备过程的改进。比如元数据的推荐、流程的推荐、资产推荐、建议推荐等。
  • 第五是数据准备和数据交付。通过数据管道进行数据的转化和集成。数据集成对 Data Fabric 非常重要,通过批处理、数据复制、数据同步、流数据集成等一些数据虚拟化方式,把数据准备好,交给交付层。
  • 最后是数据编排和 DataOps数据编排是用于驱动数据准备工作流的一种流程,用来集成、转换和交付各种数据和分析用例的数据。DataOps 是一种开发的方式,把类似 DevOps 的持续集成、部署、交付用到了数据领域。基于AI 的自动数据编排进行处理。

4. 从新的架构发展趋势来看,需要数据治理和目录支撑-Data Mesh

数据治理也是 Data Mesh 的基础原则之一。Data Mesh 是不同于 Data Fabric 的另一种数据架构的概念。Data Mesh 专注在面向领域的数据产品化和自治。Data Mesh 和 Data Fabric 是两种不同的数据管理方法,每种方法都有自己的优势和合适的用例。Data Mesh 更适合于具有不同领域且需要自主性和快速数据交互的组织。而 Data Fabric 更适合于寻求集中统一的数据视图且简化数据访问的单一团队的模式。Data Mesh 是分散式的,Data Fabric 是集中式的,这是两者的关键区别。

Data Mesh 有 4 个基本原则,如上图右侧所示,包括域的所有权、数据产品、自助数据平台和联邦数据治理。

下面重点看一下联邦数据治理。联邦数据治理需要具备一个平衡的能力,需要能平衡域的自主与域之间的协作,既要自主操作,又在需要时相互协作。域之间的相互协作,需要让客户能够为数据分析创建数据的连接和联合。另外,还要发现数据的交叉点,获得更广泛的见解或者是知识,能够快速融合,挖掘新的价值。

要实现上述 4 个原则,需要具备如下能力:
  • 先是权力下放,每个域要有自主权,让域自己去管自己。
  • 外各个领域层面要负责管理各自的数据质量,而不是统一管理。
  • 外需要能够自动化地执行,减少手工操作。
  • 有跨域的标准化,以实现互操作性。如果没有统一的标准,那域之间的打通将是很困难的。
数据网格声称需要一种新的联邦治理范式。传统的数据治理过于集中,扼杀了创新和变革,比如有关于中台的讨论,如果过于集中,有时就不那么敏捷或灵活,不利于创新和变革。另外,传统的数据治理也难以满足数据产品客户的需求,因为集中式的范式,更多的关注在数据操作上,对数据的应用关注较少。

所以可以看到 Data Mesh 这种架构同样也是需要数据治理与元数据的能力的。

5. 从新的架构发展趋势来看,需要数据治理和目录支撑-DataOps

DataOps 是一种协作制的数据管理实践。在交流中,一些熟悉数据中台的行业人士,会把 DataOps 称为敏捷精益的数据运营,其实这里只是把它的特点提炼出来,比如 DataOps 属于数据运营,核心思想是敏捷和精益,这在 DataOps 中有很多体现。

DataOps 团队致力于简化和自动化数据工作流,为组织提供准确、值得信赖的数据。在这个目标下,元数据在成功实施 DataOps 和整个数据生命周期的管理流程优化上发挥着关键作用。

首先,通过数据发现和数据血缘建立事实的来源。通过元数据提供的有关数据资产的来源、转化和使用情况的信息,在整个数据运营的过程中,对于了解数据的依赖关系、跟踪数据的流向、确保数据的可靠性,是至关重要的。通过记录和利用元数据,DataOps 团队可以将数据从源头追溯到使用点,从而助力整个数据的跟踪和审计。这对维护数据的完整性、增强数据的信任都是非常重要的。

第二个方面是自动化数据管道。DataOps 依靠自动化的数据管道,高效、高一致性地交付数据。在这个过程中,元数据作为管道的蓝图,会指导整个数据流通过程中各个阶段的自动化工作流通过元数据整合到管道设计中,然后数据工程师确保数据得到正确的转换验证,并路由到其预期的目的地。这就是元数据驱动的自动化,简化了工作流程,降低了人工错误风险。

第三个方面是帮助评估数据质量。维护数据质量是 DataOps 的基本目标,持续的自动化测试在 DataOps 中是非常关键的。元数据通过提供数据的特征信息,比如完整性、准确性、及时性的一些见解来帮助评估数据质量。通过监控元数据的属性,DataOps 团队可以去识别数据问题和异常情况,从而主动去提高数据质量。

第四个方面是促进协同和沟通。促进了数据工程师、数据科学家、可视化公司、数据治理等不同团队人员之间的协作。元数据作为一种通用语言,通过元数据去沟通,从业人员可以降低沟通的成本。

第五个方面是数据安全和隐私策略。元数据通过记录数据的分类分级、访问控制还有敏感/非敏感,支持实施安全策略来保护敏感数据。此外元数据能够通过自动化的识别,比如个人信息等敏感信息,帮助我们遵守相应的法律法规。

向客户交付数据分析结果或者数据产品的过程中,数据治理主要提供数据目录、人员职责分工、协作机制、工作流程、数据百科等。其中数据百科是包含数据上下文等各方面的元数据,能够帮助全面了解数据。

以上就是元数据在 DataOps 架构中所起的作用。

02

元数据驱动的数据治理案例

下面介绍我们在利用元数据方面所做的一些实践。

1. 数据变更治理

首先是数据变更治理。

数据发生变更以后,特别是源头变更,对于下游的影响是非常大的。数据仓库、数据湖等接入了上游数据,上游变更以后,通常需要很多人工投入去找错、补数。如果处理不及时,可能会影响到后面的业务,甚至造成业务的停业。

解决这个问题的核心是通过元数据的血缘关系,实现对全链路的影响分析,精准、敏锐的捕获到前端的变更操作,确定其影响范围,再协同下游去做变更,以避免上游变更对下游的影响。

借助元数据有助于降低变更对下游的影响以及回溯成本,提高协同变更处理效率。现在我们已经针对十几种变更场景,包括库级的、表级的、字段级的,实现了自动的对接。

2. 量化和自动化数据治理

第二是在量化和自动化数据治理方面的实践。

传统的数据治理中,很难去体现治理的效果或者价值,这也是很多人提出的问题。在大数据环境下,靠人力是很难实现的,需要自动化。我们将捕获到的相关元数据接入到元数据仓库中,并设计了一整套元模型,以及 200 多个指标,并对这些指标进行可视化展示。数据的质量、安全、价值,以及数据资产的健康度等,都是通过元数仓来支持的。在此基础上,可以通过设置预警来及时发现问题,通过邮件、电话等方式提醒相关人员去处理。如果不是很紧急的问题,会定期通过审计报告通知到相关人员。数据治理人员通过这样的数据治理大脑,能够更全面地了解数据质量问题,问题的处理进展,数据的抽取过程、集群的稳定性、效率等都可以通过这种方式进行治理。这样就可以改变过去被动治理、突击式治理的局面,实现自动化数据治理。

3. 智能数据治理

第三个方面是智能数据治理。

我们基于大模型做了一些尝试,通过知识学习去沉淀行业的 know how,将繁琐的人工治理转变成简单的智能治理,提高数据治理的效率。通过 Metastore 这一层,包括模型元数据、ETL 元数据、历史 SQL 脚本等,将这些数据治理的特征等知识输入之后,结合大模型将 SQL 转换成 DSL,同时辅助聚类、相似度、智能推荐、链路检测等小模型,去满足重复数据自动判定、治理策略推荐、冗余 SQL 优化等治理场景的智能应用。对于公司,可以提高数据治理效率,降低成本。对个人,可以降低数据治理的门槛,提升操作的友好性,降低人工成本,并提升治理效果。

实现步骤为:第一步,采集历史的 SQL、ETL,模型元数据等信息;第二步,将历史的 SQL 通过大模型进行 DSL 的转化;第三步,构建字段级的血缘库和向量索引库,并对 Metastore 的元数据进行特征抽取和向量化,在此基础上构建第三个库——特征库;最后,基于三个库,训练聚类、链路监测、推荐相似度等模型。

应用场景包括事后治理场景,比如重复数据判断、数据链路优化、历史脚本调优等。以及事前治理,比如用户新建代码时,可以通过 SQL 进行相似判断,同时推荐模型可以进行相似模型的推荐和智能代码建议等。

03

未来展望

1. 元数据驱动的未来展望

未来的元数据驱动模式如下图所示:

元数仓通过各种渠道、产品等采集元数据,包括操作型系统、业务系统、数据质量工具、建模工具、安全工具、BI 等数据产品工具。对集中到一起的元数据,利用 AI 工具,进行主动元数据管理。再通过集中的操作对元数据充分利用,再推送到各个终端的一些其他产品工具上,实现治理或者管理。比如通过集中对元数仓中元数据的操作,实现整体变更的协同。

2. 数据治理场景化实践总结实例:元数据驱动的数据工程(灵活性、可维护性、可复用)

举一个元数据驱动的数据工程的例子。我们经常需要对不同表执行类似数据处理任务,元数据驱动的数据工程,只需要更改元数据就可以使用不同的文件和表,而无需更改代码本身,减少了代码重复,提高了数据工程的效率。

如上图所示,首先是定义两组元数据,一组是 CSV 文件,另一组是 SQL Server 表,定义好两组元数据后,去定义执行 SQL 命令的游标,去创建 SQL 表,再用 data frame write 将表进行写入。把元数据定义好,之后有类似的操作,只需要去更改相应的元数据,不需要改其它代码,这样就能减少代码的变更,使得代码的灵活性、易维护性以及可复用性会更强。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


李然辉

京东科技

数据资产管理团队负责人

从事 IT 行业十八年以上,有 10 年数据治理和数据资产管理经验,现在京东科技集团负责数据资产管理工作,当前的研究方向是数据智能和数据资本,相关成果会不定期在“数据资本主意”微信公众号发表。


往期推荐


微信全局因果作用估计实践

基于因果的机器学习及银行业应用

20 分钟带你搞懂 LLMOps !!

一文带你掌握AB实验最佳流程 ! ! !

免费下载:《数据湖应用架构与MySQL数据库电子书领取》

洞察海外 AB 实验的地区差异效果

借鉴 ChatGPT 思想,小布助手在 AIGC 上的探索

数据波动归因分析与指标治理

当推荐遇见大模型,会碰撞出什么样的火花

集团类企业数据治理实践


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存