Gartner发布的2022年重要战略技术趋势,Data Fabric(数据编织)赫然在列,这个概念现在挺火的,国内国外甚至有了相关产品,但数据编织这个概念并不是那么好理解。
什么是数据编织?
Gartner的定义
Gartner将数据编织定义为一种设计概念,可作为数据和连接流程的集成层(结构)。通过对现有、可发现和可推理的元数据资产进行持续分析,数据编织能够在所有环境(包括混合云和多云平台)中设计、部署和利用可重复使用的集成数据。
数据编织结合了人和机器的优势,可在适当的地点访问或整合数据。它不断识别和连接来自不同应用的数据,以发现可用数据点之间独特的业务相关关系;支持重新设计的决策,能够通过快速访问和理解提供比传统数据管理实践更多的价值。
Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集成所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据,Gartner称,数据编织预计可缩短30%的集成设计时间、30%的部署时间和70%的维护时间。
Forrester的定义
Forrester提出了Big Data Fabric的概念,Big Data Fabric的最佳之处在于它能够通过利用动态集成、分布式和多云架构、图形引擎、分布式和持久内存等方面的能力来快速交付应用,其专注于自动化流程集成、转换、准备、管理、安全、治理和编排,以快速启用分析和洞察力,实现业务成功。
IBM的定义
IBM认为Data Fabric的核心是一个数据管理平台,通过包括发现、治理、管理和编排在内的、全面的集成数据管理功能 ,实现“在正确的时间,从任意位置,将正确的数据与正确的人连接起来,从而全面释放数据价值,加速企业的数字化转型”的目标。Cloud Pak for Data 是IBM开发的具有数据管理、监管和分析功能的Data Fabric平台。
Talend的定义
Talend认为Data Fabric是结合了AI能力的自动化数据集成平台。Talend的Data Fabric平台是由其数据集成平台发展而来,囊括了诸如大数据、机器学习、数据治理和 数据API等产品,将数据集成、数据治理以及数据运营统一在一个平台中。
数据编织与其它技术的区别
数据编织跟数据集成有什么区别
数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等,其专注于复制、移动数据,如ETL加工、数据同步等。
数据编织是一种架构思想,跟数据集成本来是无法直接比较的,但由于数据虚拟化是实现数据编织架构中的关键技术之一,因此可以比较下数据虚拟化和数据集成的区别,数据虚拟化可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间,具体包括跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,数据虚拟化跟数据集成还是有本质区别的,假如没有虚拟化能力,数据是很难编织起来的,当然,数据编织远远超越了数据虚拟化的范畴,这个后面会解释。
数据编织与数据湖有什么区别
很多企业机构通过建立数据湖汇总企业机构内外部的所有数据,但这种收集数据的形式仅限于数据的存储,容易产生“暗数据”,并且不利于实时处理跨越不同存储介质的数据。而数据编织的设计模式是帮助企业机构从传统的收集数据形式渐渐转换成连接数据,即数据不移动位置,而以连接形式继续使用数据‘
数据编织与数据中台有什么区别
数据中台是一个管理与使用数据的方法论与综合体系,不仅包含最基础且核心的数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和业务流程、运营机制和考核办法等,只要企业机构中上述各方面相互匹配,数据中台方可顺利运转。而数据编织则更强调机器学习、人工智能、知识图谱等新技术的应用,重点在于新技术的应用逻辑与应用场景,即相较数据中台而言,数据编织的技术色彩更浓一些。
数据编织的典型构架
Gartner将数据编织定义为一种设计概念,它充当数据和连接过程的集成层(结构)。数据编织利用对现有、可发现的元数据资产的持续分析,以支持跨所有环境(包括混合云和多云平台)设计、部署和利用集成和可重用数据。
数据编织利用人和机器的能力来访问数据或在适当的情况下支持其整合。它不断地识别和连接来自不同应用程序的数据,以发现可用数据之间独特的、与业务相关的关系,并通过分析获得数据洞察力;通过快速访问和基于图谱的元数据理解提供比传统数据管理更多的价值。Gartner给出的数据编织的典型结构,至下而上分为5个层次,如下图所示:
数据源层
数据编织可以连接各种数据源。这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入。数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。
数据目录层
与传统人工编目不同,数据编织强调采用新技术,例如:语义知识图、主动元数据管理和嵌入式机器学习 (ML),自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。
知识图谱层
数据编织必须构建和管理知识图谱。知识图谱的语义层使用 AI/ML 算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。 基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。
数据集成层
数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于 ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过 API 支持与内部和外部利益相关者共享数据。
数据消费层
数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
数据编织实现需要的5种核心能力
大多数企业机构都在努力做好全面的数据管理架构设计,因为这个架构能让他们以最佳方式关联/收集、整合和提供来自异质数据源和应用的分布式数据,进而满足其数据和分析(D&A)的用例需求。
在过去的十年中,数据和应用孤岛的数量大幅增加,而数据团队的技术人员数量却保持不变甚至所有下降。这一现象带来的结果就是:现在,从提出整合数据请求到满足整合数据请求的时间缺口,已经达到了历史最大值。
因此,企业需要设计一种数据管理架构,该架构不仅能够在多云混合生态系统中优化集成数据,而且能够对数据工程任务进行自动化处理,从而降低任务复杂性并优化业务成果和价值。
要达到数据编织的目的,需要具备以下五个能力:
第一、数据编织可以连接各种数据源。
数据源的类型可以是数据库、数据仓库、数据湖、BI、应用系统或者文档等等,这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入,数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。
第二、数据编织需要有灵活的数据目录。
首先数据编织最好能自动的识别和获取元数据,比如数据库中的schema。
其次,能够基于ML/AI能力对数据的语义进行分析,打上数据的标签,从而加深对数据的业务理解,比如针对文档进行语主题分析给出分类,又比如针对关键字段的数据进行分析给出枚举的说明,再比如通过字段的上下文智能判断敏感级别。
最后,基于元数据构建知识图谱,即将碎片化的元数据有机的组织起来(比如建立关系和对象), 让数据目录更加容易被人和机器理解和处理,并为搜索、挖掘、分析等提供便利,为后续AI的实现提供知识库的基础。
第三、基于知识图谱实现设计和分析智能
知识图谱有两大作用。
第一,可以快速的进行数据集成设计,比如实现源端连接配置、源端表和字段等信息的快速检索和自动填充,使其更加直观和易于解释。
第二、可以进行数据的智能推荐,比如基于数据的历史使用情况进行推荐,也就是把正确的数据,在正确的时间里,给到正确的人。
知识图谱在商业推荐领域应用的已经比较广泛,把它移植到数据连接领域就成了新鲜玩意,我们以前的数据集成设计主要是“人找数据”,而数据编织设计的核心是“数据找人”,以前对这句话不太能理解,现在终于明白它在讲什么。
第四、实现数据的动态集成和自动编排
有了前面的基础,数据的动态集成就成了可能,动态数据集成技术包括本体技术和网格技术。
网格技术原理比较简单,就是能够支撑各种数据源之间的数据交换、共享和协同计算,能够进行跨数据源的数据集成,比如用一个SQL直接跨数据源进行数据融合计算,现在有人在提NOETL,估计就是指这个吧。
第五、面向消费者提供自助能力
数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
一句话总结
一句话解释数据编织,即“基于知识图谱的分布式数据智能集成、编排和自助数据服务”。
参考资料:
- Gartner数据编织基本指南
- 了解数据编织的作用《Gartner有效商业决策指南》系列研究
- 数据编织架构是实现现代化数据管理和集成的关键
- 死磕了老半天,终于读懂了数据编织(Data Fabric)
Views: 1400