一、概述

分布式编目归集系统(Ottomi-Atlas) 是一个用于数据梳理、编目、归集和管理的综合性平台。它支持大规模数据的自动化采集、发布、管理和统计分析,旨在解决数据分散、共享困难以及数据治理等问题。本手册将详细介绍系统的功能模块及其实现流程。


二、核心功能模块

1. 数据目录编制

1.1 基于业务对象的信息资源目录编制方法

  • 明确梳理范围及粒度:梳理部门行使行政权力、办理业务事项依托的数据,细化到具体数据项或文件。
  • 确定业务对象:根据部门职能配置和业务事项,识别关键业务要素(如人、场地、事件等),作为业务对象。
  • 梳理业务对象的数据实体
    • 将描述业务对象特征的数据项组合成数据实体。
    • 确保数据项不重复定义,并明确其来源系统和数据标准。

1.2 数据目录编制的方法和过程

  1. 颁发通知并召开培训会议,为每个机构分配账号。
  2. 各机构完善基本信息(如机构名称、统一信用码等)。
  3. 登记应用系统信息(如系统名称、数据库类型、IP地址等)。
  4. 自动同步数据目录信息,实现全视角数据编目。
  5. 持续运营中关注目录注释、数据归集和一致性检查。

2. 数据归集

2.1 数据归集的难点及解决方案

难点解决方案
数据分散与兼容性问题构建统一数据接入平台,支持多种数据库类型和版本。
业务系统稳定性问题采用无侵入式数据抽取技术,避免对业务系统造成干扰。
数据类型复杂性问题提供自定义数据处理器功能,支持复杂字段处理。
源库性能限制问题实施流量控制和断点续传功能,减少源库负载。
源库多样性问题扩展多源数据接入功能,支持Kafka、Hadoop、MongoDB等数据源。

2.2 数据归集方式

  • 数据填报:在线表单配置,支持增删改查操作。
  • 准实时库表抽取:支持增量标识、差异比对及全量替换。
  • API获取:在线配置源端提供的API,实现数据定时抽取。
  • 文件同步:自动保存上传的文件到数据库中。
  • CDC日志同步:实时同步数据库日志,确保即时更新。

2.3 准实时数据抽取

  • 全量替换:覆盖目标端旧数据,确保事务一致性。
  • 增量插入:动态跟踪新增数据,减少抽取时间。
  • 增量更新:识别修改和删除的数据,保持数据一致性。

2.4 CDC实时同步

  • 核心原理:通过监控数据库事务日志捕获变更数据。
  • 工作流程
    1. 数据变更捕获。
    2. 变更数据提取。
    3. 数据传输和同步。
    4. 目标系统处理。
  • 应用场景
    • 数据备份与主从复制。
    • 数据分发与集成。
    • 实时业务分析与报告。

3. 数据编目实现流程

  1. 数据梳理:采集各部门的数据情况,以图表形式展现。
  2. 目录管理:建立和维护数据目录,完成数据信息的发现和定位。
  3. 报表生成:产出统计报告指导各部门进行数据目录梳理。

4. 功能模块详解

4.1 数据目录可视化展现

  • 支持图表展示各机构的数据情况。
  • 提供分享功能,可导出数据目录。

4.2 机构管理

  • 树状结构展示部门机构信息。
  • 支持部门调整和变更。

4.3 应用系统管理

  • 登记各部门的应用系统信息。
  • 查看相关数据库连接方式。

4.4 数据库连接管理

  • 登记数据库的连接信息(如IP地址、用户名和密码)。
  • 仅限业务部门和管理员可见。

4.5 数据库表管理

  • 批量上传数据库表结构信息。
  • 支持非结构化数据录入。

4.6 统计功能

  • 按部门职能统计已录入的数据目录情况。
  • 提供目录注释、发布、变更等统计报告。

三、系统特点

1. 高效率

  • 自动化采集目录,几分钟完成几千张表的目录采集。

2. 数据透明

  • 系统自动计算,避免人工造假。

3. 安全性

  • 支持SM4算法加解密,保障敏感数据存储安全。

4. 兼容性

  • 支持多种数据库类型(如MySQL、Oracle、PostgreSQL等)和国产数据库。

5. 灵活性

  • 提供直观的传输数据信息修改功能。
  • 支持SQL语句过滤条件。

四、任务调度与管理

1. 调度灵活性

  • 支持按秒、分钟、小时、天、周、月周期性运行采集任务。
  • 可随时启停任务,查询任务状态和汇总图表。

2. 容错机制

  • 提供分布式快照功能,定期保存检查点状态。
  • 使用二阶段提交协议(2PC)保障分布式事务一致性。

五、适用场景

分布式编目归集系统(Ottomi-Atlas)适用于各类需要高效管理和整合多源数据资源的业务场景,具体应用领域包括但不限于政务管理、金融服务、医疗健康、智能制造、智慧城市及科学研究等。以下是一些具体的业务适用场景:

1. 政务管理

使用场景

  • 各级政府部门需要整合和管理涉及民生、行政审批、公共安全等不同系统中的大量数据,实现跨部门数据共享和协作。

应用实例

  • 智慧政务平台:通过Ottomi-Atlas编制多个政务信息系统中的数据目录,促进数据在多个政府部门之间的共享与合作,提高政务服务效率和透明度。

2. 金融服务

使用场景

  • 银行、保险、证券等金融机构需要从多个业务系统中整合客户、交易、风险管理等数据,实现统一的数据管理和分析。

应用实例

  • 综合金融数据平台:整合客户信息管理系统(CRM)、交易系统和风控系统的数据,编目和归集金融数据,实现实时风险管理和客户分析。

3. 医疗健康

使用场景

  • 医院、诊所和健康研究机构需要整合和管理电子病历、影像资料、实验室数据等,从而改善病患诊疗和推动医学研究。

应用实例

  • 智慧医疗平台:编目和归集各类医疗数据,构建统一的数据目录,使医疗机构能够更好地共享和访问患者信息,提高诊疗效率和医学研究质量。

4. 智能制造

使用场景

  • 制造企业需要整合和管理来自生产设备、供应链、质量控制等多个系统的数据,实现工业互联网与智能制造优化。

应用实例

  • 工业大数据平台:通过Ottomi-Atlas归集和管理来自生产线、设备监控系统和供应链管理系统的数据,实时分析生产效率并进行质量控制和预测性维护。

5. 智慧城市

使用场景

  • 市政管理部门需要整合涉及交通管理、公共安全、环保监测等的多源数据,建设智慧城市系统,实现城市精细化管理。

应用实例

  • 智慧城市数据平台:整合和编目来自交通传感器、监控摄像头、环境监测设备的数据,实现数据的实时处理和决策支持,提升城市治理水平。

6. 科学研究

使用场景

  • 各类科研机构需要整合和管理从不同实验室和研究设备获得的数据,促进跨学科合作和创新研究。

应用实例

  • 科研数据管理平台:编目和归集来自不同实验室和学科的研究数据,为科研人员提供统一的数据访问和分析平台,支持高效的科研工作和知识发现。

7. 教育与学术

使用场景

  • 教育机构和大学需要管理和共享来自不同学科、院系的教学和研究数据,支持教育管理和学术研究。

应用实例

  • 教育大数据平台:整合和编目教务系统、科研系统和学生管理系统的数据,提供全面的教育统计分析和学术资源共享。

8. 零售与电子商务

使用场景

  • 零售和电子商务企业需要整合客户行为、销售数据和库存管理等信息,实现数据驱动的商业决策。

应用实例

  • 全渠道零售数据平台:汇聚线上线下购物数据、客户行为数据和库存信息,实现精准营销、个性化推荐和库存优化管理。

9. 能源与公用事业

使用场景

  • 能源公司和公用事业单位需要管理和分析来自不同地点和设备的数据,提高能源利用率和服务质量。

应用实例

  • 智慧能源管理平台:编目和归集来自发电站、输电网和智能电表的数据,实现全面的能源监测和分析,推动节能减排和服务优化。

10. 物流与供应链

使用场景

  • 物流公司和供应链管理企业需要整合来自多个供应商、仓库和运输线路的数据,优化物流运营和供应链管理。

应用实例

  • 智能物流平台:汇聚和管理供应商系统、仓储系统和物流跟踪系统的数据,实现实时物流监控、路径优化和供应链管理。

通过这些应用场景,分布式编目归集系统(Ottomi-Atlas)展示了其在不同业务领域的数据整合和管理能力,帮助各类组织和企业实现数据驱动的决策和运营优化。