将数据作为企业的商业资产进行应用和管理的一套管理机制,消除数据的不一致性,建立规范的数据应用标准,提高组织的数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。包括元数据管理、主数据管理、数据质量、数据剖析、数据分析、数据集成、数据字典、数据库管理、监控与报告等。

sj

平台提供集群的基础存储架构和运算框架,数据的导入和导出等。包括的开源组件如下。

  • Zookeeper:各种Hadoop服务的依赖组件,用来实现高可用、状态监控和元数据存放等功能。在CM部署时需要依赖于集群各自的Zookeeper。
  • HDFS:分布式文件系统,Hadoop平台的数据存放基础。用来存放结构化和非结构化数据,HBase的基础文件格式(HFile)。
  • YARN:分布式调度引擎,Hadoop平台基本计算服务,原生支持具备Mapreduce计算框架。用来实际执行多种任务,例如SQL分析、ETL作业、导入导出和索引建立等。
  • Spark:分布式内存计算引擎,提供高性能的计算服务。