大数据产品白皮书
1、产品概述
产品定位立足于通用数据处理平台,并延伸至多个垂直行业解决方案。其中通用平台产品系列提供用户基本的数据存储及处理框架;而垂直解决方案面向行业场景,自下而上提供全价值链的数据增值业务解决方案,已成功用于日志分析、海量数据仓库、流式处理、实时推荐等多种场景,涵盖金融、电信、电力、智慧城市、电商、物联网等多个行业。
2、体系架构
套件是一款大数据管理分析平台,基于底层的基础平台,自下而上可以分四层,依次是数据存储层、数据总线、数据处理层以及业务适配层。
数据存储层:支持海量异构数据的统一可靠的存储管理,对外提供统一的分布式调用接口。
数据总线:支持数据采集、过滤、缓存、中转分发调度等。数据总线是拉通计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度
数据处理层:基于支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库,包括 文本处理、搜索引擎、数据挖掘等。
业务适配层:为上层业务系统提供各种不同协议和标准的访问接口。
高性能高可用:通过软硬件多方优化配置和深度研究,保证整个平台的高可用和高性能。
产品具备如下技术特色:
丰富存储类型支持:除了对传统关系型及KV 类型支持外,存储组件还支持对图类型、POSIX 文件以及文档类型等支持。
数据生产与分析拉通:通过统一底层存储,兼容POSIX,实现数据处理无缝链接。
高速流式处理框架:基于内存集群架构,支持对流式数据的清洗、过滤及实时分析。
兼容标准访问接口:各组件提供标准的SQL、KV、POSIX 及REST 等访问接口。
全方位运维管理平台:提供Web 及CLI 方式的运维及操作控制两套平台,分别面向系统管理员及数据分析师。
高可扩展及高可用:继承了Hadoop 社区高可扩展的系统架构,同时提供定制化数据冗余策略,实现成本与可靠性的平衡。