奥腾多模态AI数据中台（Ottomi-Nexus 3.0）能力介绍

Ottomi Nexus 是一个基于 DataOps 思想打造的全链路数据处理平台，采用单包一体化交付、容器化部署，面向政企数据治理、数据开发、数据资产运营、多模态 AI 数据管理与可信数据空间建设等场景，提供从数据接入、标准治理、质量管理、开发建模、任务调度、资产服务到 AI 智能应用的一体化能力。

功能模块可划分为以下几大板块：

一、管理中心

子模块	核心能力
账号管理	成员管理、组织单位管理、角色管理
权限体系	RBAC + ABAC，6 级粒度：系统 → 项目 → 数据源 → 表 → 行 → 列
行级权限	细粒度数据行访问控制
日志管理	全操作审计，防篡改日志
AI 助手配置	大模型接入配置、API Key 管理
系统配置	通知渠道配置，支持站内信、邮件、企业微信等

二、业务规划

子模块	核心能力
数据分层设计	ODS 原始层 → DWD 标准明细层 → ADS 应用指标层
业务板块与主题域	板块创建、主题域划分，支撑企业级数据架构规划
项目空间管理	项目创建、计算源管理、成员管理
双沙盒架构	开发沙盒 / 生产沙盒强隔离模式，或单沙盒一体化模式
三种部署模式	大型集团级标准双沙盒、中等混合灵活组合、轻量一体化极简部署

三、数据接入引擎

数据接入引擎面向企业多源异构数据归集场景，支持数据库、CDC、接口、文件等多种数据接入方式，实现结构化、半结构化以及多模态数据资源的统一纳管和归集。

子模块	核心能力
源端数据库管理	注册异构数据源，支持 MySQL、PostgreSQL、Oracle、DB2、SQL Server、达梦、人大金仓、OceanBase、TiDB、ArgoDB、Greenplum、ClickHouse、Doris、StarRocks、GBase、Hive 等 40+ 数据源
数据库类型管理	通过 JDBC 驱动可扩展，支持企业自定义数据源接入
库表抽取	支持库表级数据抽取，覆盖全量同步、增量同步、差异更新同步等场景
CDC 同步	支持毫秒级延时的数据变更捕获，覆盖 MySQL-CDC、Oracle-CDC、PostgreSQL-CDC、SQL Server-CDC、MongoDB-CDC 等
接口归集	通过界面配置自动生成接口归集任务，并从源端 API 获取数据；支持 GET、POST、PATCH 等 HTTP 请求方法
接口参数配置	支持 URL 参数、Body 参数、请求头配置；支持参数转换，包括无需转换和 Java 脚本转换
Body 参数格式	支持 form-data、application/json、text/plain 等多种 BODY 参数格式
参数来源	接口归集参数可来自自定义配置，也可来自库表配置，实现动态参数化采集
文件归集	支持多种格式数据文件导入，包括 csv、txt、xlsx、lsx 等，并将支持 json、xml、orc 文件上传资源
样本规则 & 样本引擎	5 种样本生成策略：绑定样本规则、表达式计算、外表值域生成、基础类型生成、按原表数据；三层规则体系：基础规则、业务规则、特殊规则；支持隐私计算转换，样本数据可参与计算
资源透视	数据源浏览、表结构查看、DDL 复制、数据查询
元数据管理	自动编目、资产上下架
AI 自动编目	AI 辅助源端资产自动编目与聚合

3.1 数据归集能力说明

3.1.1 库表抽取

库表抽取面向传统业务系统数据库同步场景，支持将源端数据库中的表数据同步到平台指定目标端，适用于历史数据初始化、周期性数据归集、业务系统数据汇聚等场景。

支持方式包括：

全量同步：一次性抽取源表全部数据，适用于初始化装载、历史数据迁移。
增量同步：基于时间字段、主键、版本号等增量标识，仅同步新增或变化数据。
差异更新同步：对源端与目标端数据进行差异识别，并执行新增、更新等同步动作。

3.1.2 CDC 同步

CDC 同步通过捕获源端数据库的变更日志，实现低延迟数据变更同步，适用于实时数仓、实时指标、业务系统异步解耦、数据湖实时入湖等场景。

支持能力包括：

毫秒级数据同步延时；
支持新增、修改、删除等变更事件捕获；
支持 MySQL-CDC、Oracle-CDC、PostgreSQL-CDC、SQL Server-CDC、MongoDB-CDC；
可与实时计算、实时质量校验、实时数据服务等模块联动。

3.1.3 接口归集

接口归集是一个通过界面化配置自动生成接口采集任务，并从源端系统 API 自动获取数据的工具。用户无需编写复杂代码，即可完成第三方接口数据归集。

支持能力包括：

支持 GET、POST、PATCH 等 HTTP 请求方法；
支持 URL 参数、Body 参数、请求头配置；
支持参数转换，包括无需转换和 Java 脚本转换；
支持 form-data、application/json、text/plain 等 Body 参数格式；
参数来源支持自定义配置，也支持来自库表配置；
可用于 SaaS 系统、业务系统、政务接口、第三方开放平台等接口数据采集场景。

3.1.4 文件归集

文件归集面向批量文件导入和外部文件资源纳管场景，支持将本地或远程文件导入平台并转化为可处理的数据资源。

支持格式包括：

已支持：csv、txt、xlsx、lsx 等；
规划支持：json、xml、orc 等文件上传资源；
可与数据标准、质量校验、数据开发、资产目录等模块联动，实现文件数据的规范化治理。

四、研发中心 · 数据开发

核心能力：可视化拖拽式 ETL 画布 + AI 智能助手“对话即建模”。

4.1 开发组件库（9 大类 95+ 组件）

类别	数量	代表组件
实时输入	7	Kafka、MySQL CDC、Oracle CDC、SQL Server CDC、MongoDB CDC、PostgreSQL CDC、EventStore
实时输出	3	单表输出、StarRocks 输出、Kafka 输出
离线输入	14	单表、API、MongoDB、StarRocks、Excel、CSV、XML、Text、S3、JSON、逻辑表、FTP、SFTP、RabbitMQ
离线输出	9	Text、Excel、CSV、XML、JSON、ORC、S3、FTP、SFTP
数据转换（实时/离线通用）	19	异常值检测、唯一 ID 生成、列转行、NULL 替换、数据过滤、值替换、字符串修剪/大小写/拆分/拼接/切片、字段过滤、字段名映射、Java 高级转换、JsonPath 提取、函数计算、数据加解密、数据脱敏
离线脚本	11	脚本管理、SQL、Shell、Python、Flink、MR、FlinkSQL、HQL、DataX、Sqoop、Flink JAR
离线数据运算	3	聚合、去重、排序
离线多表同步	1	多表批量同步
离线数据融合	1	表合并

4.2 内置函数库（84+ 函数）

类别	数量	示例
数值函数	27	ABS、CEIL、FLOOR、ROUND、MOD、SQRT、EXP、LN、LOG、POWER、RAND 等
字符串函数	28	CONCAT、SUBSTR、TRIM、REPLACE、REGEXP_LIKE、REGEXP_REPLACE、LEFT、RIGHT、LPAD、RPAD 等
时间函数	若干	日期格式化、日期计算、时间差等
系统函数	若干	系统变量、环境信息等

4.3 AI 画布助手

内置在可视化建模画布侧边的智能助手对话框；
自然语言描述 → 自动解析 → 画布自动完成数据源选取、算子拖拽、参数配置、连线编排；
支持 AI 模型接入，包括云端模型和本地私有化模型；
覆盖数据归集、数据开发、数据质检等 AI 应用场景；
帮助数据工程师、数据分析师和业务人员降低数据开发门槛。

五、数据标准管理

数据标准模块整体划分为 标准管理、参考数据、通用配置、落标评估 四大核心功能板块，全面覆盖行业标准层级搭建、业务数据标准全生命周期管控、标准资源沉淀、标准化模板配置、智能特征识别、数据自动对标、全域合规扫描、落标效果评估与执行追溯全流程能力。

该模块既满足政企传统结构化数据统一标准化治理需求，同时也将适配文本、图像、音视频等多模态 AI 数据规范化管控场景，为自动化建模提供干净、统一、口径一致、格式合规的高质量底层数据支撑，从源头解决企业数据口径混乱、字段命名杂乱、编码规则不统一、标准落地难、治理效果无量化依据等行业普遍痛点。

子模块	核心能力
标准管理	支持行业标准、企业标准、业务标准、字段标准、编码标准等标准体系建设
参考数据	沉淀统一参考数据资源，如行政区划、行业分类、证件类型、状态码、枚举值等
通用配置	支持标准模板、命名规则、编码规则、数据类型映射、标准识别规则等配置
落标评估	支持数据自动对标、标准符合性检测、落标率统计、问题追溯与整改闭环

5.1 标准管理

标准管理用于构建企业级数据标准体系，支撑从标准定义、发布、引用到变更的全生命周期管理。

核心能力包括：

支持行业标准、企业标准、业务标准等多层级标准体系搭建；
支持字段名称、中文名称、英文名称、数据类型、长度、精度、值域、编码规则、口径说明等标准属性维护；
支持标准分类、标准版本、标准状态管理；
支持标准发布、下线、变更留痕；
支持标准与数据资产、数据模型、数据质量规则的联动。

5.2 参考数据

参考数据用于沉淀企业统一使用的基础编码、枚举、字典和值域资源，解决不同系统之间编码不一致、含义不统一的问题。

核心能力包括：

支持行政区划、组织机构、行业分类、证件类型、人员类型、业务状态码等参考数据维护；
支持参考数据分组、版本、状态管理；
支持参考数据与字段标准、质量规则、数据开发任务联动；
支持统一值域校验，保障业务系统和数据平台口径一致。

5.3 通用配置

通用配置用于支撑标准化治理过程中的规则化、模板化、自动化能力。

核心能力包括：

标准模板配置；
字段命名规范配置；
数据类型映射配置；
编码规则配置；
智能特征识别规则配置；
标准匹配规则配置；
多场景、多行业标准适配配置。

5.4 落标评估

落标评估用于衡量数据标准在真实数据资产中的执行效果，帮助企业从“有标准”走向“标准真正落地”。

核心能力包括：

数据资产自动对标；
字段名称、字段类型、字段长度、字段注释、值域范围等标准符合性扫描；
全域合规扫描；
标准落标率统计；
问题清单生成；
整改跟踪与执行追溯；
标准执行效果量化评估。

六、质量管理中心

质量管理中心基于 DAMA 标准，围绕完备性、一致性、准确性、及时性、唯一性、规范性 6 大质量维度构建规则体系，支持定时批量质检、实时流式质检和用户自定义质量规则。

规则类别	数量	示例
单表结构检查	9	表非空、时间戳字段、字段注释齐全、主键完整性、重复数据、引用完整性、最后更新时间合规、增量存在性、增量异常
单表字段内容检查	50+	空值、全角字符、值域范围、字段长度、日期格式、手机号、身份证、护照、银行卡、军官证、邮箱、统一社会信用代码、行政区划代码、车牌、血型、VIN 码、税号等
单表条件检查	若干	业务条件组合校验
多表/全库结构检查	若干	跨表一致性、全库规范性
多表动态检查	若干	跨表动态逻辑校验
实时数据检查	若干	实时流数据质量监控

核心能力包括：

支持质量规则配置、规则分组、规则模板管理；
支持离线批量质量校验；
支持实时数据质量监控；
支持质量任务调度和异常告警；
支持质量报告生成；
支持质量问题闭环处理；
支持与数据标准模块联动，基于标准自动生成部分质量规则。

七、数据资产管理

子模块	核心能力
资产市场	“数据超市”，支持浏览、搜索、申请数据资产
数据源表资产	资产编目、业务分类、血缘追踪、多维评价
指标体系	原子指标、衍生指标、复合指标，构建三级指标体系
API 资产	API 浏览、申请、审批
文件管理	文档存储、上传、归档
智能识别	OCR 识别、文档摘要、关键词提取，面向图片、音频、视频、文档等多模态数据

数据资产管理中心用于实现数据资源资产化、资产服务化和服务价值化，帮助企业构建统一的数据资产目录、数据资产市场和资产运营体系。

八、数据共享服务中心

子模块	核心能力
API 自动生成	向导式将数据表一键封装为 RESTful API
API 市场	API 发布、注册、版本管理、流量监控
动态脱敏	API 调用时自动脱敏
审批流程	数据申请 → 审批 → 订阅 → 授权全生命周期
接口市场	API 上下线管理，可自定义审批流

数据共享服务中心用于将治理后的数据资产以 API、接口市场等形式对外提供服务，支持数据申请、审批、授权、调用、监控、下线的全生命周期管理。

九、数据安全与合规

子模块	核心能力
分类分级	自动敏感扫描与数据分类，支持 S1-S5 分级
加密	支持 SM2/SM3/SM4 国密算法
数据脱敏	4 种脱敏算法：字符掩码、加密 SM4、HASH、字符替换
双沙盒隔离	“数据黑盒 · 模型白盒”——生产沙盒数据不可见，开发沙盒仅使用样本数据，模型一键发布到生产
全链路血缘	源端到应用端完整追溯
防篡改审计	全操作记录与哈希存证
合规	符合《数据安全法》《个人信息保护法》等要求

数据安全与合规模块贯穿数据接入、开发、治理、共享和应用全过程，保障数据可用不可见、可控可审计、可追溯可合规。

十、可视化数仓建模

子模块	核心能力
Kimball 维度建模	可视化维度表、事实表构建
拖拽式 Cube 设计	多维 Cube，支持切片、上卷、下钻
三级指标体系	原子指标 → 衍生指标 → 复合指标
库表无关	支持任意兼容数据库作为数仓后端，如 MySQL、Oracle、Doris、Greenplum、Hive 等

可视化数仓建模能力帮助企业以低代码方式构建主题域模型、维度模型、事实模型和指标体系，降低传统数仓建模门槛。

十一、BI 分析与可视化

子模块	核心能力
内置 BI	基于开源 DataEase 集成
可视化仪表盘	拖拽式报表创建，无需编码
图表类型	柱状图、折线图、饼图、仪表盘、数据大屏
自助分析	面向业务人员的友好分析界面

BI 分析与可视化模块面向业务分析、经营监控、指标看板、数据大屏等场景，为业务用户提供自助式数据分析能力。

十二、AI 智能中心

子模块	核心能力
大模型配置	对接公有云 LLM，如通义千问、文心一言等，或私有化部署模型
AI Agent	数据归集智能体、数据开发智能体，可编辑 Prompt 模板
LangChain 编排	多工具 + LLM 协同工作流
计划中	API、MCP 模型上下文协议扩展、Skills 插件机制

AI 智能中心为平台提供统一的大模型接入、智能体编排和智能辅助能力，可支撑数据归集、数据开发、数据质检、数据资产编目、知识问答等智能化场景。

十三、可以升级为可信数据空间

子模块	核心能力
零信任架构	连接器管理、自动部署
样本引擎	差分隐私、合成数据、格式保持加密
空间管理	独立数据空间、跨空间合规共享
区块链存证	防篡改日志 + 区块链证据存储

Ottomi Nexus 可进一步升级为可信数据空间底座，支持多主体之间的数据安全流通、合规共享和可信协作。

十四、任务调度引擎

任务调度引擎负责平台内数据归集、数据开发、质量检查、标准落标评估、数据同步、脚本执行等任务的统一编排、调度、执行和监控。

子模块	核心能力
DolphinScheduler 集成	提供分布式任务调度能力，支持复杂任务流编排
调度配置	支持按秒、分、时、天等周期配置
依赖编排	支持复杂工作流上下游依赖编排
监控告警	支持运行日志监控、任务状态监控与异常告警
并行计算引擎	引用 SeaTunnel 的主机、引擎节点、资源组概念，实现跨主机、多节点并行计算
资源组调度	支持业务任务指派资源组，由平台自动调度资源组内所有跨主机计算节点并行执行

14.1 分布式任务调度

平台集成 DolphinScheduler，提供任务流编排、定时调度、依赖管理、失败重试、补数执行、运行监控等能力。

典型能力包括：

支持数据同步任务、ETL 任务、SQL 脚本任务、Shell/Python/Flink 等脚本任务统一调度；
支持任务上下游依赖；
支持任务失败重试；
支持任务补跑；
支持周期性任务配置；
支持任务运行日志和执行状态监控。

14.2 并行计算引擎

平台内置并行计算引擎，引用 SeaTunnel 的 主机、引擎节点、资源组 等核心概念，对数据同步、数据转换、批量处理等业务任务提供跨主机、跨节点的并行执行能力。

其核心执行模式为：

业务任务 → 指派资源组 → 自动调度组内所有跨主机计算节点并行执行

具体说明如下：

主机：承载计算节点的物理机、虚拟机或容器运行环境；
引擎节点：部署在不同主机上的计算执行节点，负责实际的数据处理任务；
资源组：由多个引擎节点组成的计算资源集合，可按业务域、任务类型、环境或资源规格进行划分；
任务指派：业务任务可指定运行的资源组；
自动调度：任务提交后，平台自动调度资源组内可用计算节点；
并行执行：同一资源组内的多个跨主机计算节点可并行处理任务，提高大批量数据同步、转换和加工效率；
弹性扩展：通过增加主机和引擎节点，可扩展资源组计算能力；
资源隔离：不同业务任务可绑定不同资源组，避免计算资源相互抢占。

该能力适用于：

大批量库表同步；
多表并发抽取；
文件批量处理；
CDC 数据消费处理；
离线 ETL 任务并行计算；
跨系统数据迁移；
多业务域计算资源隔离。

十五、运维管理

子模块	核心能力
硬件监控	服务状态监控
数据备份	配置库与配置文件备份
高可用	主备架构 + 自动故障切换

运维管理模块用于保障平台稳定运行，支持部署状态监控、服务健康检查、配置备份、故障恢复和高可用运行。

总结

Ottomi Nexus 的核心产品哲学可以概括为：

“数据黑盒 · 模型白盒”：双沙盒机制让数据安全可控，模型透明可审计；
“对话即建模”：AI 画布助手将自然语言转化为可视化工作流；
“单包一体化”：一个 Docker Compose 命令，快速完成平台部署；
“标准先行，治理闭环”：通过数据标准、质量管理、落标评估和资产运营，实现企业数据治理闭环；
“多源归集，统一纳管”：支持库表抽取、CDC 同步、接口归集、文件归集等多种数据接入方式；
“并行计算，弹性调度”：基于主机、引擎节点和资源组概念，实现跨主机、多节点并行执行；
“多模态 AI 数据底座”：面向文本、图像、音频、视频、文档等多模态数据，提供标准化、资产化、智能化处理能力；
“企业级安全合规”：6 级权限粒度、4 种脱敏算法、国密算法、全链路审计与数据分类分级，构建安全可信的数据基础设施。

Ottomi Nexus 3.0 通过数据接入、数据标准、数据质量、数据开发、资产管理、共享服务、AI 智能和任务调度等模块的一体化融合，为政企客户提供从数据资源到数据资产、从数据治理到 AI 应用、从单体平台到可信数据空间的完整能力支撑。

奥腾多模态AI数据中台（Ottomi-Nexus 3.0）能力介绍

一、管理中心

二、业务规划

三、数据接入引擎

3.1 数据归集能力说明

3.1.1 库表抽取

3.1.2 CDC 同步

3.1.3 接口归集

3.1.4 文件归集

四、研发中心 · 数据开发

4.1 开发组件库（9 大类 95+ 组件）

4.2 内置函数库（84+ 函数）

4.3 AI 画布助手

五、数据标准管理

5.1 标准管理

5.2 参考数据

5.3 通用配置

5.4 落标评估

六、质量管理中心

七、数据资产管理

八、数据共享服务中心

九、数据安全与合规

十、可视化数仓建模

十一、BI 分析与可视化

十二、AI 智能中心

十三、可以升级为可信数据空间

十四、任务调度引擎

14.1 分布式任务调度

14.2 并行计算引擎

十五、运维管理

总结

Ottomi-Nexus Multimodal AI Data Platform

Ottomi Nexus 3.0 - Multimodal AI Data Platform