一、概述

数据迁移中心(Ottomi-Flux) 是一个用于大规模数据抽取、归集、同步和管理的综合性平台,旨在解决数据分散、兼容性问题以及性能限制等挑战。本手册将详细介绍系统的功能模块及其实现流程。


二、核心功能模块

1. 数据归集

1.1 数据归集的难点及解决方案

难点解决方案
数据分散与兼容性问题构建统一数据接入平台,支持多种数据库类型和版本。
业务系统稳定性问题采用无侵入式数据抽取技术,避免对业务系统造成干扰。
数据类型复杂性问题提供自定义数据处理器功能,支持复杂字段处理。
源库性能限制问题实施流量控制和断点续传功能,减少源库负载。
源库多样性问题扩展多源数据接入功能,支持Kafka、Hadoop、MongoDB等数据源。

1.2 前置机数据归集方式

  • 数据填报:在线表单配置,支持增删改查操作。
  • 准实时库表抽取:支持增量标识、差异比对及全量替换。
  • API获取:在线配置源端提供的API,实现数据定时抽取。
  • 文件同步:自动保存上传的文件到数据库中。
  • CDC日志同步:实时同步数据库日志,确保即时更新。

2. 准实时数据抽取

2.1 数据抽取方式

  • 全量同步:覆盖目标端旧数据,确保事务一致性。

  • 增量同步:动态跟踪新增数据,减少抽取时间。

  • 差异更新:识别修改和删除的数据,保持数据一致性。

2.2 功能特点

  • 归集方式全:支持全量抽取、增量插入和差异增量更新。

  • 兼容性支持:支持关系型数据库(如MySQL、Oracle)和非关系型数据库(如Hive、MongoDB)。

  • 性能卓越:分布式计算,每秒可抽取8-10万条记录。
  • 任务调度灵活:支持按秒、分钟、小时、天、周、月周期性运行采集任务。

  • 安全性高:支持SM4算法加解密,保障敏感数据存储安全。

  • 配置灵活:支持字段映射、新增字段和表名修改。

  • 操作简单:可视化B/S架构,向导式操作界面。

3.读写并行计算引擎

增量7.png

​ 图-读写并行计算引擎

3.1 核心功能

  1. 负载均衡:自动分配数据任务到多节点,避免单点过载。

  2. 并行计算:通过多线程分片技术,大幅提升数据处理速度。

  3. 数据分片:将大数据集拆分为小块,支持范围或哈希分片策略。

  4. 任务调度:动态分配任务,实时监控状态,确保稳定运行。

  5. 流量控制:支持限速,减少对源端数据库的影响。

  6. 断点续传:中断后可从上次位置继续,避免重复操作。

3.2 技术优势

  • 高性能:每秒处理8-10万条记录。
  • 低延迟:分片传输,确保实时性。
  • 高可靠性:分布式快照和2PC协议保障数据一致性。
  • 灵活性:支持多种数据库类型和动态扩展。

3.3 应用场景

  1. 大规模数据迁移:快速抽取和加载海量数据。
  2. 实时数据同步:结合CDC技术捕获变更并同步。
  3. 数据湖构建:高效归集多源异构数据。
  4. 离线文件处理:加速大文件导入与处理。

4. CDC实时同步

4.1 核心原理

通过监控数据库事务日志捕获变更数据,并将其传输到目标系统。

4.2 工作流程

  1. 数据变更捕获:监视数据库事务日志或使用API捕获数据变更操作。
  2. 变更数据提取:将捕获的变更数据转换为易于处理的格式。
  3. 数据传输和同步:通过消息队列或流式处理框架传输数据。
  4. 目标系统处理:更新目标系统的数据存储或执行业务逻辑。

4.3 应用场景

  • 数据备份与主从复制:实现实时或准实时的数据备份。
  • 数据分发与集成:将同一份数据分发到多个目标源。
  • 实时业务分析:更新数据仓库或数据湖中的数据。
  • 数据迁移与升级:捕捉源数据库中的实时变化并同步到目标数据库。

5. 离线文件归集

支持通过文件导入的方式获取数据,包括但不限于以下格式:

  • CSV、TXT、XLSX、LSX、JSON、XML、ORC。

6. API接口归集

6.1 产品概述

API接口归集工具通过界面配置自动生成接口并从源端获取数据。

6.2 工作原理

  1. 界面配置:输入API基本信息(请求方法、URL、参数等)。
  2. 参数转换:支持无需转换和Java脚本转换。
  3. API生成与调用:动态生成API请求代码并发送请求。
  4. 结果展示与存储:将响应数据存储到指定库表中。

三、系统特点

1. 高效率

  • 自动化采集目录,几分钟完成大规模数据抽取。
  • 支持分布式计算,提高数据处理速度。

2. 数据透明

  • 系统自动计算,避免人工造假。
  • 提供详细的日志记录,便于追溯和审计。

3. 安全性

  • 支持SM4算法加解密,保障敏感数据存储安全。
  • 实施分布式快照和容错机制,确保数据一致性。

4. 兼容性

  • 支持多种数据库类型(如MySQL、Oracle、PostgreSQL等)和国产数据库。
  • 支持多源数据接入(如Kafka、Hadoop、MongoDB等)。

5. 灵活性

  • 提供直观的传输数据信息修改功能。
  • 支持SQL语句过滤条件和自定义数据处理器。

四、任务调度与管理

1. 调度灵活性

  • 支持按秒、分钟、小时、天、周、月周期性运行采集任务。
  • 可随时启停任务,查询任务状态和汇总图表。

2. 容错机制

  • 提供分布式快照功能,定期保存检查点状态。
  • 使用二阶段提交协议(2PC)保障分布式事务一致性。

五、适用场景

数据迁移中心(Ottomi-Flux) 是一个综合性平台,专门设计用于解决大规模数据抽取、归集、同步和管理过程中的种种挑战。它的应用范围广泛,适用于多种业务环境和数据管理需求。以下综合描述几个主要的应用场景:

1. 企业数据整合与迁移

企业在进行数据整合或系统升级时,经常需要将数据从旧系统迁移到新系统。Ottomi-Flux 提供了强大的数据抽取和加载功能,支持全量替换、增量插入和增量更新,确保在数据迁移过程中数据的完整性和一致性。其多数据库兼容性(如MySQL、Oracle、PostgreSQL等)使得数据迁移变得更加便捷和可靠。

2. 实时数据同步

对于需要实时或准实时数据同步场景,如金融、零售、医疗等行业,Ottomi-Flux的CDC(Change Data Capture)技术可以监控数据库事务日志,捕捉数据变更并即时更新目标系统,确保源端和目标端数据的一致性。在需要实时业务分析或实时系统集成时,CDC技术显得尤为重要。

3. 数据备份与灾难恢复

企业需要定期进行数据备份以防止数据丢失和系统崩溃。Ottomi-Flux 支持数据的实时备份与主从复制,实时捕捉源端数据库的变更并同步到备份服务器或云端。这样即使在系统故障时,也能确保数据的安全和业务的连续性。

4. 数据湖和大数据分析

在构建数据湖或进行大数据分析时,需要从多源异构数据源汇聚和整合数据。Ottomi-Flux的多源数据接入功能支持多种数据源(如Kafka、Hadoop、MongoDB等),并且其高效的数据归集和处理能力使得大规模数据管理和分析变得更加简单和高效。

5. 离线文件处理

企业有时需要处理大量的离线文件,如日志文件、数据导入文件等。Ottomi-Flux支持多种文件格式(CSV、TXT、XLSX、JSON、XML、ORC等)的导入和处理,能够快速将离线文件中的数据加载到数据库或数据仓库中,方便后续的查询和分析。

6. 应用系统升级与数据迁移

当企业进行应用系统升级或迁移时,数据的兼容性和一致性是关键问题。Ottomi-Flux能够支持跨版本、跨平台的数据库迁移,通过无侵入式数据抽取技术,减少对业务系统的干扰,确保平稳过渡。

7. 数据集中与共享

大中型企业经常面临数据分散在各个部门和系统的问题。Ottomi-Flux的统一数据接入平台可以将分散的数据集中汇集,并进行统一处理和管理,提升数据的利用率和共享性,支持企业级数据治理与决策支持。

8. 业务数据整合与跨系统数据传输

在业务扩展和数字化转型过程中,企业需要将不同系统中的数据进行整合和传输。Ottomi-Flux提供了灵活的API接口归集功能,通过界面配置即可生成API进行数据采集,支持多种形式的数据传输和整合,方便企业实现系统间的数据互通和业务协同。

9. 科研与教育数据管理

在科研机构和教育机构中,海量数据的管理和分析是常见需求。Ottomi-Flux在支持高性能数据处理和灵活任务调度的基础上,可以为科研项目的数据采集、整合和共享提供强力支持,提升科研数据管理效率。

10. 智能制造与工业物联网

制造企业在进行智能制造和工业物联网(IIoT)建设中,需整合来自不同设备、传感器和系统的数据。Ottomi-Flux可以对这些数据进行快速采集、处理和同步,助力企业实现生产优化和智能决策。

11. 金融实时交易与风险管理

金融行业需要对交易数据进行实时监测和风险控制。Ottomi-Flux能够通过其高效的数据同步和处理能力,帮助金融机构实时捕捉交易数据,进行风险评估和管理,确保金融业务的高效运转和安全。

12. 智慧城市与物联网数据管理

智慧城市建设中,需要对海量的城市管理数据进行整合和实时处理。Ottomi-Flux可以处理来自交通、安防、环保等各领域的多源数据,实现高效的数据同步和动态管理,支撑城市智能化管理。

综合分析

数据迁移中心(Ottomi-Flux) 在解决数据管理难点(如数据分散、兼容性、性能限制)方面具有显著优势,适用于各类需要高效数据迁移、同步和管理的业务场景,涵盖企业信息化、智慧城市建设、金融风险管理、大数据分析等多个领域。它不仅提升了数据处理的效率和准确性,还保障了数据传输和存储的安全性,使企业能够更加从容地应对现代数据环境中的各类挑战。