近日,中国联通基于华为OceanStor存储Pacific系列的大数据平台正式上线,标志着中国联通和华为技术有限公司在大数据计算存储分离架构的规模化技术创新方面取得了全面突破。
业务挑战
中国联通已经构建了全球电信行业技术和规模双领先的集中一体化大数据平台,当前正在推进数据中台战略,实现全域数据共享,跨源跨域融合分析,快速释放数据价值。
数据中台建设对于数据基础设施提出了新的挑战:
需要能够灵活调度的数据基础设施,计算、存储资源分别池化,统一的存储底座,和多样的计算引擎,能够基于业务需求快速调度,支持业务快速创新;
更低的存储成本,5G时代,运营商数据量预计将增长5倍以上,在当前提速降费的大环境下,需要更高效的利用存储资源,节省CAPEX和OPEX投资;
数据共享,数据内容越来越多样化,为了避免数据孤岛,支撑BOME四域数据融合分析,非结构化和结构化数据统一存储已成为数据基础设施的新标准;
数据可靠性,数据分析能够支撑企业提升用户体验,找到新的商业机会,正在从边缘业务走向核心系统,作为其基础设施,需能够容忍多节点同时故障,支持亚健康检测、故障快速修复,有效拉长维护周期。保证系统高可用的前提下,降低海量数据的维护复杂度。
解决方案
2019年3月,中国联通集团信息化部数据中心与华为公司成立联合工作组,共同推进大数据系统集约化建设和国产化技术创新。
基于大数据存算分离技术的运营支撑平台整体架构如下:
华为大数据存算分离方案创新性的在存储层实现了原生的HDFS的语义,打破了传统大数据平台计算存储紧耦合的部署架构,不仅实现大数据平台建设成本的大幅降低,而且通过存储层全分布式架构和协议融合互通的能力,提升数据分析效率,完全满足中国联通对于大数据平台的期望和要求。
华为大数据存算分离方案创新点:
计算存储分离,按需扩展
在存储层构建了原生HDFS能力,将存储从服务器本地盘剥离,形成计算和存储完全分离的方案,既满足业务弹性扩展需求,又避免资源浪费,为统一的大数据分析平台打下技术基础。
大比例EC算法,提高存储资源利用率
在大数据存算分离方案中,采用存储层成熟的EC技术,替代Hadoop的多副本,存储资源利用率提升到91.6%,同样的数据量,机柜数下降45%,大幅节省了运维成本。
全分布式NameNode,海量数据统一管理
采用存储层提供的全分布式的NameNode架构,每个节点既是数据存储节点,也是元数据管理节点,单个NameSpace能够支撑百亿文件的存储,为大数据平台提供坚实的数据存储底座,很好的支撑了集团的数据中台战略。
原生HDFS,新老共存,保护投资
在大数据存储层构建了HDFS的纳管功能——元数据网关,通过纳管现网已经部署的HDFS,实现了应用层数据访问的统一入口,且支持优先写入存储层HDFS、基于配置选择写入HDFS、负载均衡写入HDFS等多种写入策略,真正做到了业务无感知的平滑演进。
企业级存储数据保护技术,提升可靠性
在存储层,采用多故障域技术,每个故障域都允许4个节点同时故障,上百个存储节点集群,即能够容忍12个节点同时故障,极大的延长了维护周期。当出现硬盘或节点故障时,存储层提供远高于传统Hadoop的数据重构速度,将故障修复时间从天级缩减至小时级,进一步加强数据层的可靠性。
由于是新技术,中国联通联合华为制定了非常全面的测试计划,同时搭建了存算一体和存算分离两套测试环境,采用现网脱敏的真实业务数据,通过镜像对比,从功能、性能、可靠性、可扩展性等多个维度,论证方案的可行性和价值。经过数个月的联合测试,测试结果得到中国联通集团信息化部数据中心的认可,最终促成中国联通对于华为OceanStor存储Pacific系列的规模化采购。
客户价值
目前,基于存算分离技术建设的运营支撑平台已正式上线,已经承载了互联网分析、IoT、日志等系统15PB的数据量,实现了联通各省公司2/3/4/5G xDR、网络信令、互联网日志、IoT等数据的接入分析,日导入数据量超过70TB。
存算分离方案给中国联通带来如下显著价值:
1) 节省成本:大幅降低采购和运维成本,总TCO降低30%,节省千万以上投资;
2) 运营效率提升:该项目投入运营后,分析效率提升20%,每年将带来千万以上的收入增长。
3) 提升可靠性:存储层通过多故障域、快速重构、亚健康检测等技术,可靠性提升30倍以上。
展望未来
未来,华为将持续为中国联通数据基础设施创新注入动力,结合华为OceanStor存储Pacific系列的多协议融合互通的能力和开放的数据分析生态,实现BOM多域的数据融合,突破生产系统和分析系统之间的壁垒,建设统一的数据存储底座,降低数据的存储成本,加速数据流动;在无状态的计算基础上,引入更加多样的计算引擎,如BI、深度学习、图计算、时空分析等新兴引擎,快速推陈出新,支撑应用系统快速创新。通过持续创新,共同打造存得下、流得动、管得好的数据基础设施,释放海量数据的价值。