一文说清楚数字孪生建设中的数据管理设计体系
在数字化浪潮席卷全球的当下,数据已然成为企业最为宝贵的资产之一。有效的数据资产管理不仅能够助力企业挖掘数据价值、优化运营决策,还能增强企业在市场中的竞争力。为满足企业对数据管理日益增长的复杂需求,本系统应运而生,它融合了先进的数据湖技术架构与工具,从数据的采集、处理、存储到应用,构建了一套完整且高效的数据资产管理体系。
- 数据服务技术 - 外部数据采集
本系统具备强大且广泛的兼容性,在工业物联网领域展现出卓越的适配能力。能够与现场各类复杂的设备,如支持 PLC(可编程逻辑控制器)、DCS(分散控制系统)及智能模块、智能仪表、板卡、变频器等设备的物联数据实现无缝对接。支持 COM、TCP、UDP、GPRS、编程口、USB 等多种通信链路,无论设备采用何种传输方式,都能稳定连接。同时,涵盖 OPC、Modbus、Bacnet、Lonworks、IEC101、IEC104、DNP 等众多标准协议,确保了对不同行业、不同品牌设备的兼容性。对于一些非标设备,还可通过定制开发的方式实现数据采集,满足企业特殊设备的数据获取需求。采集到数据后,利用 webscoket 或 http 等方式,对数据进行精准对接、高效解析与安全存储,深度融合三维场景与实时数据、历史数据。例如,在智能工厂场景中,通过实时展示设备运行的当前实际数据,工作人员可随时掌握设备状态。并且,能够对实时数据设置阈值报警,当设备数据超出正常范围时,系统立即发出警报,帮助工作人员第一时间发现隐患,快速采取措施解决问题,有效降低生产风险。
在视频监控数据接入方面,与现场视频监控摄像头实现了精准对接。首先,按照 1:1 的比例对摄像头进行建模,精确还原摄像头外观。然后,依据详细的图纸点位位置,将摄像头模型精准部署到三维场景中。通过将场景中的位置与摄像头编号一一对应,实现了快速定位功能。例如,当需要查看某个特定区域的监控画面时,工作人员只需在三维场景中点击对应的摄像头编号,即可快速定位到该摄像头。系统内置 VLC 组件,在获取视频流地址(RTMP/RTSP)后,能够迅速解析并流畅播放实时视频流。用户不仅可在视频列表中灵活切换被观测的摄像头,还可直接点击场景中的摄像头模型或名牌,方便快捷地播放实时视频流,实现了对现场全方位、全天候和全覆盖的实时在线视频画面监控。
- 数据服务技术 - 工作台功能
工作台为用户提供了数据中台各功能模块的便捷入口,宛如一个集成化的操作枢纽。用户无需繁琐的导航查找,即可快速访问数据源管理、数据开发、项目管理、数据工厂、工作流监控、数据清洗、数据映射规则管理、数据服务、服务监控、订阅授权、订阅审核等多个核心模块。这大大提高了用户操作效率,减少了因频繁切换页面而浪费的时间,让用户能够专注于数据管理工作。
全面展示平台业务开展情况,通过直观的数据统计,为用户提供清晰的业务洞察。涵盖采集元数据表数量,如在企业的数据整合项目中,实时统计已成功采集的元数据表个数,让用户了解数据收集的进度;建立服务目录数量,清晰呈现为业务部门构建的服务目录数量,方便业务人员快速查找所需服务;API 数据服务数量,展示平台对外提供的 API 服务数量,评估平台的服务输出能力;服务订阅用户数量,反映有多少用户对平台服务感兴趣并进行了订阅;服务订阅次数,体现服务的受欢迎程度;工作流监控数量,帮助运维人员掌握工作流的运行状态数量;工作流项目数量,清晰呈现正在进行的工作流项目数量;配置数据库数量,方便数据库管理员了解已配置的数据库情况;工作流执行任务总数,让项目负责人对整体工作流任务量有清晰认识。
对工作流任务和 API 数据服务进行深入分析。在工作流任务方面,通过统计工作流执行任务总数,可分析工作流的繁忙程度和执行效率。例如,当任务总数持续增长且执行时间过长时,可能需要优化工作流配置。对于 API 数据服务,进行开放 API 服务分类统计,如将 API 服务分为数据查询类、数据更新类等,帮助开发者了解不同类型 API 的使用频率,以便针对性地进行优化和维护。
支持录入机构各部门的数据源连接信息,并且在录入时进行严格的测试,确保数据源的可用性。以企业内部多个部门的数据整合为例,市场部门、财务部门等不同部门的数据来源多样,支持 sqlserver、postgresql、MySQL、Oracle、Hive 等多种数据库的表结构采集和管理。通过内置的数据源适配器及配置信息,能够与各类数据来源建立稳定连接。例如,对于一个跨国企业,其国内部分使用 mysql 数据库,国外部分使用 Oracle 数据库,系统都能通过配置,实现与这些数据库的稳定连接,为后续的数据映射和同步奠定坚实基础。支持批量数据集成,可自定义配置源表与目的表的字段级映射关系,满足不同业务场景下的数据整合需求。
- 数据服务技术 - 数据映射规则管理
- 数据映射规则管理模块负责维护源数据库同步映射资源数据,这一过程就像是搭建一座数据桥梁。它将融合后的元数据结构提交到资源数据融合系统,为后续的数据同步提供可靠依据。例如,在企业的数字化转型项目中,需要将旧系统中的数据迁移到新的数据仓库中,该模块通过对源数据库和目标数据仓库的元数据进行分析和融合,建立起准确的映射关系。支持数据映射规则的配置,用户可根据业务需求,灵活设置源表与目标表之间的字段对应关系;支持批量配置,对于大量具有相似映射规则的数据表,可以一次性进行配置,大大提高工作效率;支持删除数据映射规则,当业务需求发生变化,某些映射规则不再适用时,可及时删除;还支持表查询功能,方便用户快速查找和查看已配置的映射关系。可灵活配置源端业务系统的数据表与中台数据仓库之间的映射关系,无论是批量映射多个表,还是单表映射,亦或是针对流式数据的流式表映射和普通表映射,都能轻松应对,满足企业复杂的数据整合和管理需求。
- 数据服务技术 - 数据快速采集管理
提供高效的实时数据采集功能,满足企业对数据及时性的严格要求。支持新增采集任务,用户可根据业务需求,快速创建新的数据采集任务,如在电商企业中,为了实时监控商品销售数据,可随时新增对销售数据库的采集任务;支持编辑采集任务,当业务规则发生变化,需要调整采集频率或采集字段时,可方便地对已有任务进行编辑;支持删除采集任务,对于不再需要的采集任务,可及时清理,释放系统资源;支持查询采集任务,用户可随时查询采集任务的执行状态、采集进度等信息。同时支持增量采集和全量采集两种模式,增量采集适用于数据变化较小的场景,只采集新增或修改的数据,减少数据传输和处理量;全量采集则适用于数据初始化或需要全面更新的场景。
对采集任务进行全面管理,确保数据采集工作的稳定运行。包括新增采集任务,在创建任务时,可设置任务名称、采集周期、数据源等详细信息;启用采集任务,当任务配置完成且准备就绪后,可启动任务开始采集数据;停用采集任务,在任务需要暂停时,可随时停止采集;编辑采集任务,可对任务的各项参数进行修改;删除采集任务,对于不再使用的任务,可彻底删除;查看采集日志,通过查看日志,可了解任务执行过程中的详细信息,如采集时间、采集数据量、是否出现错误等;监控任务状态日志,实时掌握任务的运行状态,及时发现并解决问题。能够对已建立的数据映射关系进行统一调度,确保数据采集的高效运行,避免出现数据冲突或采集不及时的情况。
- 数据服务引擎
作为数据处理的核心,数据服务引擎犹如整个数据资产管理系统的大脑,实现数据集成、分析、可视化和存储,为数据的灵活应用提供全方位支撑。在数据集成方面,能够将来自不同数据源的数据进行整合,打破数据孤岛;在数据分析方面,提供强大的分析工具和算法,帮助用户从海量数据中挖掘有价值的信息;在数据可视化方面,通过直观的图表、图形等方式,将数据以易于理解的形式展示出来;在数据存储方面,采用高效的存储架构,确保数据的安全存储和快速访问。
提供详细的元数据总览,让用户对数据资产有全面清晰的认识。包括元数据总数,统计系统中所有元数据的数量;技术元数据统计,对数据的技术属性,如数据类型、数据格式、存储位置等进行统计;业务元数据统计,对数据的业务含义、业务规则等进行统计;全网技术元数据分布,展示不同技术领域的元数据分布情况;技术元数据情况,详细呈现技术元数据的各项细节;业务元数据情况,深入分析业务元数据的特点;元数据占比统计,计算不同类型元数据在总体元数据中的占比。支持实时和周期性的元数据采集,用户可根据业务需求,灵活设置采集方式。例如,对于实时性要求较高的业务数据,可设置实时采集;对于一些变化相对较慢的数据,可设置周期性采集。用户可通过配置数据源参数及定时采集任务,利用内置采集适配器实现自动化采集,大大减轻了人工操作负担。同时还能查看采集任务的历史执行情况,方便用户进行任务追溯和问题排查。支持独立的元数据模型管理,基于 CWM 元数据协议标准,对业务元数据和技术元数据进行统一管理和存储,确保元数据的一致性和规范性。支持多种类型的数据模型,如关系型、非关系型等,满足不同业务场景下的数据建模需求,并可自定义元模型的业务属性,让元数据模型更贴合企业业务实际。支持对采集到的元数据进行查看、修改、分级目录自定义、备份、全链关系查看、血缘关系查看和影响分析,以及元数据的查询和全链分析。通过这些功能,用户能够深入了解元数据的来龙去脉,更好地管理和利用数据资产。
- 数据资源汇聚
将平台所需数据进行分类整合,按照统一数据标准进行数据库设计和规范化入库,这一过程就像是对杂乱的图书馆书籍进行分类整理上架,大大提升了数据的使用效率。在实际操作中,首先对数据进行细致分类,如分为客户数据、产品数据、销售数据等;然后根据统一的数据标准,对数据进行清洗、转换等处理,确保数据的一致性和准确性;最后将处理后的数据按照设计好的数据库结构进行入库存储。
提供便捷的资源目录查询功能,支持对目录名称、目录代码等关键字的模糊匹配,方便用户快速查找所需标准。例如,当用户需要查找某一行业标准时,只需在搜索框中输入相关关键词,系统即可快速定位到相关标准。可查询国家标准、行业标准、地方标准、标准编码、创建时间、创建人、目录描述等信息,为用户提供全面的标准详情。支持通过直接引用标准元、引用元数据、批量导入、自定义等方式生成标准集。例如,在制定企业内部的数据标准时,可直接引用已有的国家标准元,快速生成符合企业需求的标准集;也可通过引用企业内部的元数据,经过调整和优化,生成标准集。对标准元进行全面管理,包括新增标准元,当企业有新的业务需求或标准更新时,可及时新增标准元;发布标准元,将已确定的标准元发布供企业内部使用;停用标准元,当标准元不再适用时,可暂停使用;恢复标准元,在需要时可重新启用;删除标准元,对于过期或无用的标准元,可彻底删除;导出标准元,方便将标准元分享给其他系统或部门;查询标准元,快速查找和查看标准元的详细信息;编辑标准元,对标准元的各项属性进行修改和完善。支持录入多源化的标准文件,参照国家标准管理平台规范,对国标、行标、地标、企标进行统一管理,作为数据标准的分类依据。支持对标准集进行单个或批量审核,并记录审核状态、过程和人员信息,确保标准集的质量和合规性。支持自定义标准规则,在配置数据标准时可应用标准元,包括数字值域、数据字典、正则表达式等校验方式,确保数据的准确性和一致性。
- 数据质量检查
全面支持数据基本质量、几何精度、图形质量、属性精度、逻辑一致性和完整性等检查内容,提供科学的数据质量检查方法。在数据基本质量检查方面,主要检查数据的准确性、完整性、一致性等基本属性;几何精度检查针对涉及空间数据的场景,确保数据的几何形状和位置精度;图形质量检查关注图形数据的清晰度、完整性等;属性精度检查确保数据属性值的准确性;逻辑一致性检查数据之间的逻辑关系是否正确;完整性检查确保数据没有缺失。
拥有丰富的规则模板库,为数据质量检查提供了强大的工具支持。内置 21 条技术类质检规则模板,如非空规则,确保数据字段不能为空值;重复规则,检测数据中是否存在重复记录;数据产出及时性规则,检查数据是否按时生成。37 条统计类质检规则模板,涵盖表行数,统计数据表中的行数是否符合预期;表大小,检查数据表的存储大小是否合理;方差波动和波动率质检,通过分析数据的方差波动和波动率,判断数据的稳定性。同时支持自定义业务质检规则模板,用户可根据自身业务需求,灵活设置质检规则,如在金融行业,可自定义对交易数据的风险评估质检规则;支持 AI 质检规则模板,利用算法平台根据质检业务需求内容,形成算法模型,质量平台调用模型进行质检,提高质检的智能化水平。支持以拖拽式方式配置质检方案,用户可根据数据特点和业务需求,选择数字范围、不重复规则、非空规则等多种质量检验组件,轻松构建质检流程。自定义 where 查询条件或分区表达式,实现对特定数据或增量数据的质检,如在电商企业中,可针对特定时间段内的销售数据进行质检。并可配置自动修复规则,当发现数据质量问题时,系统自动进行修复。支持监控数据质检任务执行情况和总体质量情况,查看稽查结果、质量详情、问题数据明细,进行批量修复和数据整改。支持基于质量稽核规则生成可视化的质量报告,从完整性、规范性、准确性、关联性、唯一性、一致性、及时性等多个维度对数据质量进行综合分析,并可将报告导出成 PDF 格式,支持日月周季年报,方便用户对数据质量进行长期跟踪和评估。
- 数据资产应用管理
支持矢量数据、影像数据、高程模型数据、地理实体数据、三维模型数据和三维场景数据的处理及时空化建库。在地理信息系统(GIS)应用中,对于矢量数据,通过专业的算法和工具,进行数据的清洗、转换和优化,然后按照时空化建库的要求,将数据存储到数据库中,方便后续的空间分析和查询。对于影像数据,进行图像增强、纠正等处理后,建立影像金字塔等索引结构,实现高效的存储和快速访问。高程模型数据经过处理后,构建数字高程模型(DEM),并存储到数据库中。地理实体数据通过语义标注和关联,整合到时空数据库中。三维模型数据和三维场景数据经过优化和格式转换后,存储到专门的数据库中,为虚拟现实(VR)、增强现实(AR)等应用提供数据支持。
在主数据建模方面,支持根据标准导入、已有模型导入、手动创建三种方式创建主数据模型。例如,在企业进行数字化转型时,可直接导入行业标准的主数据模型框架,在此基础上进行调整和完善;也可将企业内部已有的主数据模型导入,进行优化升级;还可根据企业的业务特点和需求,手动创建全新的主数据模型。并且对模型变更进行版本管控,确保模型的每一次变更都有记录可追溯。支持主流建模工具功能,包括模型设计,通过直观的图形化界面,方便用户设计主数据模型的结构;变化 SQL 语句生成,根据模型的变更,自动生成相应的 SQL 语句,方便数据库的更新;逆向数据库数据,从现有的数据库中提取数据结构,生成主数据模型;版本管理,对主数据模型的不同版本进行管理和对比。在主数据集成方面,针对不同场景,提供注册式、整合式、共存式、集中式四种集成方式。例如,在企业并购场景中,可采用整合式或集中式集成方式,将被并购企业的主数据与自身主数据进行深度融合;在企业与合作伙伴的数据共享场景中,可采用注册式或共存式集成方式。支持批量集成和消息集成。支持配置生产数据与主数据、原数据与参考数据之间的映射关系,将不同来源的原始主数据映射到核心主数据中。在主数据合并过程中,支持跨源数据整合,去除重复数据,基于 NLP 算法进行数据相似度匹配,通过多域信任推荐框架确定主数据字段取值,提供相似及相等两种匹配模式。支持对主数据和参考数据进行全面维护,包括创建及维护平面表数据和树形结构数据,支持多种操作方式,如副表查找下拉、下拉树形菜单、下拉多值显示、真假值显示等。支持将新建及更新的主数据实时或定期分发到目标业务系统,确保数据的一致性、完整性和准确性,如将客户主数据及时分发给销售、客服等业务系统,保证各部门使用的客户数据一致。
- 数据库管理
- 具备对三维实体库、指标库、模型库的管理能力,支持配置 hive、mysql、sqlserver、postgreSQL、Oracle、TDengine、kingbase 等多种类型的数仓,并以界面化形式进行维护。用户通过简洁直观的图形界面,即可轻松完成数仓的配置、创建、删除等操作。例如,在企业的数据仓库建设项目中,数据管理员可根据业务需求,