为什么要先做源端数据编目?
上海奥腾科技 2025年09月12日

  当前数据流通不畅的问题普遍存在,成为制约数据价值发挥的瓶颈。尽管行政手段推动数据共享发挥了积极的作用,但委办局和各地市的数据家底依然难以摸清,很多有价值的数据并未收集上来。在大型企业中,出于经营压力,业务条线各司其职。一方面,业务部门对公共数据的需求不强烈,另一方面,数据中心对业务应用的理解也存在客观的局限性,使得数据流通效果不佳。此外,数据治理、数据运营、数据服务的人力成本居高不下,加之对数据安全隐患的顾虑,进一步加剧影响了数据流通的时效性。

  我们看到一些单位斥重资建立了大数据平台,但是数据却很少有人调用。所以,有个很简单的衡量方式,就是大数据平台对外提供的服务接口数量以及API调用次数,以及数据共享的多少,就是可以衡量大数据平台建设的成效。

  为什么大数据中心劳师动众、精心治理的数据却鲜有人问呢? 根本原因是,你治理的数据可能不符合业务部门需求,或者数据不全、数据不及时、数据不真实等等原因。那么为什么发生数据不全的问题呢? 因为你自己不知道要从业务源端拿什么数据。你根本也不知道业务部门有什么数据!

  举个例子:大数据中心因为自身不产数据,需要从源业务部门汇聚数据,然后,就问业务部门有什么数据,业务部门说你要什么数据? 大数据中心往往说,请你用EXCEL整理表和字段信息,并且要注释齐全。业务部门一想:“我有5000张表,共计25万个字段。我整理2年也整理不完啊!你这不是增加我的负担吗,我哪有这么多空?”。于是就挑了20张简单表,整理给大数据中心,而大数据中心浑然不所知,以为业务部门只有这些数据。

  所以,大数据中心的第一步就是要解决如何知晓源业务部门的数据目录情况。按照国务院《政务信息资源目录编制指南》的精神,数据目录要求“应编尽编”。怎样做到呢?依靠人力EXCEL填写,不仅耗费众多资源,而且一定导致少报漏报。所以,一定要利用系统来自行解决,这就要采用源端自动化编目的方法。

  当前,很少有数据中台或者大数据平台,关注源端的数据编目,更多地关心资产编目。这无异于缘木求鱼。

  自动化编目:建立源端业务数据库的元数据自动采集工作,包括“组织机构、应用系统、数据库、表、字段、注释”的元数据自动采集,并实现共享方式(无条件共享、有条件共享、不予共享)打标和目录发布撤销的管理流程,一键搜索表名和字段名信息。支持采用EXCEL文件上传方式录入元数据信息。支持对数仓数据资产的目录编制。

图片9-1.png

图9-2.png

  手机端请关注公众号:数据集成服务

  本文讲解视频请参见:

  https://www.bilibili.com/video/BV1wxUhB2Eka/?spm_id_from=333.1387.upload.video_card.click&vd_source=dc423b018f373e70f93d62ac6bfb308d

  加入讨论群:

加入群聊立牌