输入组件
单表输入组件
单表输入主要用于对单一表进行数据处理,包括数据聚合、过滤、替换、添加字段等操作。通过可视化的界面简化操作步骤,用户可以根据实际业务需求灵活筛选和编辑数据。允许编写SQL语句对数据处理。
文件输入组件
文件输入应对大文件、大数据量且需要灵活清洗的场景,支持多种文件类型(如Excel、文本、CSV、JSON、ORC、XML等),并提供自定义字段分隔符、文件编码转换等功能,确保不同类型文件能够正确解析和输出;可以从本地上传文件,也可以通过终端FTP、SFTP接入文件。
模拟数据组件
在缺乏真实数据的情况下,系统提供模拟数据的能力,支持生成不同类型的模拟数据,满足性能测试需求。模拟的数据量可增加至100万,数据值域和范围可自定义。
Kafka输入组件
Kafka输入支持读取消息队列中各类非结构化数据,支持消费者组自定义这使得可横向扩展消费者数量应对高并发的数据场景,此外提供多种读取点位进行消费队列中的数据,如消费者组偏移量、历史数据、最新数据和指定时间,默认为当前组的消费偏移量。同时提供多种数据格式用于解构消息队列中非结构化数据支持文本格式、json、debezium_json、canal_json。
逻辑表输入组件
对接中台数据建模板块,可将建模生成的相关逻辑表再次处理。
CDC输入组件
基于数据库事务日志的Change Data Capture(CDC)技术,能够捕获数据源中发生的变化,从而实现对数据的实时更新和同步,实现历史数据和增量数据一体化地集成,应对诸多时效性的场景。支持以下数据源类型。
数据源 | 版本 | 要求## |
---|---|---|
MongoDB | 4.0及以上版本 | 数据库需要启用副本集模式(Replica Set)。数据库用户需要具备 read 或更高权限。 |
MySQL | 5.5 及以上版本 | 需要启用 binlog 并设置为 ROW 格式。数据库用户需要具备 REPLICATION SLAVE 和 REPLICATION CLIENT 权限。 |
Oracle | 11g 及以上版本 | 需要启用补充日志(Supplemental Logging)。数据库用户需要具备 SELECT_CATALOG_ROLE 和 LOGMINER 权限。 |
PostgreSQL | 9.4 及以上版本 | 需要启用 wal_level=logical。数据库用户需要具备 REPLICATION 权限。需要创建逻辑复制 Publication。 |
SQL Server | 2019及以上版本 | 数据库需要启用 CDC 功能。数据库用户需要具备 db_owner 权限。 |
Kafka | 0.10.x 及以上版本 | Kafka 集群的基本设置、客户端配置、Schema 和序列化/反序列化。 |
EventStore | 20.x及以上版本 | 确保 EventStore 服务正在运行,并且可以从所在的网络环境中访问。 |
多表同步组件
利用Dynamic Thread Sharing技术,减少内存占用并提升CPU利用率,无需依赖HDFS或Spark等复杂组件,具有优秀的单机处理性能。通过少量数据库连接和zero-copy技术降低序列化开销,高效解决JDBC连接过多的问题。同时,支持自动建表,能根据数据类型自动匹配创建目标表,简化操作流程。
数据融合组件
数据分析过程中经常需要将多张表的维度进行相互补充,对数据开展横向扩维,纵向汇聚的需求。多表数据处理算法集主要用于两张输入表之间的碰撞运算,包括交集处理、左连接处理、右连接处理、全连接处理等。
数据运算组件
通过聚合字段(相当于sql的group by),可对字段进行求最大值、最小值、平均值、字段计数或拼接,还可以做数据去重、排序处理。
数据转换组件
数据转换是数据处理过程中的重要环节,系统内置了丰富的数据转换算法,包括规则过滤、函数计算、字段过滤、数据过滤、值替换、NULL值替换、数据脱敏、加密解密等多个功能模块,支持快速可视化数据处理。
异常值检测
主要满足业务场景中无法通过常规的操作进行数据过滤,比如进行身份证规则检测,过滤掉身份证为假的数据集,由此系统提供规则过滤组件满足此类应用场景,系统内置丰富且验证后的规则集,也可自定义验证规则。
函数计算
系统提供丰富的函数包,分为字符串函数、时间函数、系统函数、数值函数等多个函数包,满足不同业务场景下各类需求,函数计算组件支持将当前函数计算后的数据生成新的字段或只替换当前字段。
字段过滤
系统提供选择需要的字段输出至下一步,只保留需要的字段。
数据过滤
系统提供对数据进行筛选过滤,保留符合要求的数据,可以选择对比固定值,也可以选择对比固定列(同一表中两列比较)。
值替换
系统提供将字段值替换为指定的值,仅替换字段值中符合的部分,如字段值为abcd,将a替换为A,则结果为Abcd。
NULL值替换
系统提供将空值替换为需要的指定字符内容。
数据脱敏
系统提供将敏感数据根据脱敏规则静态脱敏,内置身份证号、手机号、中文名、座机号、电子邮件、地址、车牌、密码、银行卡等脱敏规则,也可自定义脱敏规则。
数据加密解密
系统提供静态的加密解密实现数据存储。数据预览、处理过程更加安全。加密解密的算法包括ADS,DES,SM4,MD5,SHA-1等。
字段名称映射
系统提供修改字段名称,如带有特殊字符的字段名称、中文字段名称导致建表失败或者需要统一规范字段名称。
唯一ID生成
系统提供生成唯一值列,支持算法有雪花算法、常用UUID算法、UUID正整数算法、ObjectId算法。
字符串拆分
系统提供根据指定分隔符拆分字符串,自主生成字段列,实现指定信息的自定义拆分。
大小写转换
系统提供将字段值大写转小写,小写转大写功能,来统一数据规范。
字符串拼接
系统提供将同行中多个字段值拼接为新的字段,可自定义分隔符。
字符串剪切
系统提供自主配置截取位置及长度,实现字段值的自定义截取。
字符串修剪
主要解决数据不规范的问题,根据业务场景提供多种操作方式:包括特殊字符去除(回车,空格,换行符,制表符的去除),去除指定前缀、后缀符号,也可自定义去除指定符号。
JAVA高级转换
JAVA高级转换是对常规算法无法满足场景的有效补充,系统提供了JAVA脚本的输入界面,并基于常用的场景封装了多种内置方法,便于用户开展数据处理工作。主要包括列返回,值修改,值获取,值丢弃等。
JSONPath提取
系统提供将字段值为JSON类型的数据提取,生成新的字段。
列转行##
系统提供根据分隔符,将列数据转换为多行。如
id | name | subjects |
---|---|---|
1 | 张三 | 语文、数学 |
转换后
id | name | subjects |
---|---|---|
1 | 张三 | 语文 |
1 | 张三 | 数学 |
向量转换
在大模型(如深度学习模型)中,向量是数据表示和计算的基础。系统提供向量转换组件能力,支持将字段值向量化后输出至目的端。
实体抽取
为了识别提取文本中具有特定意义的实体,系统提供内置实体关键词,如事件、人名、地名、组织机构、手机号。
文本总结
业务系统中有时候需要需要提取总结文本内容,系统提供文本总结能力。
输出组件
支持将数据处理后的结果保存为实体数据,生成新表供其他运算或对外服务应用。输出类型包括库表、文件、非结构化输出端,对应输入组件类型,支持自定义刷写批量条数和输出前后的SQL脚本,增强了输出灵活性。
脚本组件
SQL脚本
SQL脚本是对常规算法无法满足场景的有效补充,系统提供了SQL脚本的输入界面,并基于常用的场景封装了多种自定义函数,便于用户开展数据处理工作。
Python脚本
系统支持Python代码编写管理,用户可在面板上编写Python代码并提交至所属的服务器环境上运行,支持定时调度Python脚本。
Shell脚本
系统支持Shell代码编写管理,用户可在面板上编写Shell代码并提交至所属的服务器环境上运行,支持定时调度Shell脚本。
FlinkJar脚本
FlinkJar脚本是对常规ETL流程无法满足场景的有效补充,系统提供了FlinkJar脚本管理界面,并基于FLinkWeb页面封装了FlinkJar运行的基本环境,提供了空余Slot数量,有效提醒用户当前Flink上剩余资源,预防资源耗尽导致生产事故。同时支持选择FLink集群上已有的Jar和通过此组件上传至Flink环境。
FlinkSQL脚本
FlinkSQL脚本是对常规ETL流程无法满足场景的有效补充,系统提供了FlinkSQL脚本管理界面,通过引导式步骤条指引使用者编写FLinkSQL流程,主要分为连接配置、初始会话、SQL面板。系统适配SQL客户端和SQL网关两种连接方式,这两种连接方式适配了FLinkSQL所有支持外部集成方式。
Datax脚本
DataX 凭借其多数据源支持、高性能、易用性、数据转换能力、插件化架构、容错机制等优势,成为了许多企业在数据同步和迁移任务中的首选工具。
但是Datax其通常部署在服务器上进行运行,需要用户手动创建数据同步的配置,无法可视化管理。系统支持Datax配置编写管理,用户可在面板上编写Datax配置并提交至所属的服务器环境上运行,支持定时调度Datax脚本。
Seatunnel脚本
Apache SeaTunnel作为一个高性能、易用的流批一体的数据集成框架,是快速落地数据集成平台的基石。
系统支持Seatunnel配置编写管理,用户可在面板上编写Seatunnel配置并提交至所属的服务器环境上运行,支持定时调度Seatunnel脚本。
Mapreduce脚本
MapReduce 在数据开发中具有不可替代的重要性。它不仅提供了高效的分布式计算能力,还简化了复杂数据处理任务的开发,同时具备良好的容错性和可扩展性。随着大数据技术的不断发展,MapReduce 依然是数据工程师和科学家处理大规模数据的重要工具之一。
系统支持MapReduceJar管理,用户可在面板上传MapReduceJar程序并提交至所属的服务器环境上运行,支持定时调度MapReduce脚本。
HiveSQL脚本
HQL(Hadoop Query Language)是一个基于 SQL 的查询语言,主要用于在 Hadoop 生态系统中的 Hive 数据仓库中查询和分析大数据。
系统支持HQL脚本管理,支持解析多行HQL语言,通过HiveServer2标准JDBC接入方式连接Hive并执行HQL,同时支持定时调度执行HQL。
Sqoop脚本
Sqoop 在大数据领域的重要性体现在其高效的数据传输能力和灵活的集成特性。它为用户提供了一个简单、快速且高效的方式来在关系型数据库与 Hadoop 之间传输数据,极大地支持了大数据分析和业务决策的需要。通过充分利用 Sqoop 的功能,企业能够更好地整合和分析其数据资产。
系统支持Sqoop 配置编写管理,用户可在面板上编写Sqoop 配置并提交至所属的服务器环境上运行,支持定时调度Sqoop 脚本。