构建精细化运营的智慧数据中心

    随着应用与技术的发展,数据中心的建设规模出现两极分化的特征:一方面,业务集中与资源共享等趋势推动数据中心向规模化方向发展,另一方面,小型数据中心在解决资源瓶颈的问题以及提供差异化服务方面的作用日趋明显。

    IT系统的集中规模化建设与垂直化分布特征,对基础设施的管理提出了全新的要求,这些要求集中体现在融合统一、持续高可用、经济性运营、可服务等方面,并已成为数据中心可持续发展的关键KPI,而以此为基础的数据中心基础设施管理(DCIM)成为了精细化运营建设的关键内容。

1 为何需要建设精细化运营

    早期的数据中心管理侧重“监测”,管理对象单一,网络简单,烟囱化管理特征明显,无法支撑业务的可持续发展。物联网、M2M、云技术的发展,使得大量设备连接成为可能,基础设施日趋整合,数据规模、复杂性增加,呈现出如下特征:

    1、领域产业链聚合,海量硬件与软件连接,资源的统一管理是基本诉求;

    2、保障连续供电、连续供冷,构建内耗最小、功效最大的资源服务中心以应对资源集中、成本控制带来的挑战,成为IDC建设、过程运营需要面对的共同课题;

    3、供电、冷却能力、机柜空间等资源的最大化利用,成为降低TCO、延长数据中心建设周期的有效方法;

    4、同时,DCIM管理与工具快速的渗透到数据中心基础设施管理的E2E流程中,为自动化、智能化的高效运维与精细化管理提供了基本的技术条件;

    建设完整的数据中心涉及基础设施,技术与系统架构,应用与数据,业务与流程,组织与运营等全方位内容。藉由基础设施的运营管理,减少数据中心运营和管理成本,提高数据中心的易用性、持续可用性和灵活扩展性,保护投资、提升回报率,帮助用户实现IT创新甚至业务创新,是IDC精细化运营的基本诉求。

2 满足要求的精细化运营框架

    数据中心建设是不同领域产业链的整合,基础设施呈现出异构、领域差异化特征,需构建一个普适的管理模式,实现统一、融合的管理,以确保业务发生变化时,对系统进行自动调优,实现高效、准确的管理。

  2.1 统一、融合的管理

    技术、业务、流程的发展和演进,推动数据中心管理目标和功能不断发展。

    数据中心的基础设施管理已经从基本的动环管理演进为DCIM,且范围逐渐延伸到BMS、IT资源领域。

    管理体系已经由孤立的资源监控、系统及网络,向着统一、融合,面向服务、流程自动化方向发展。

    管理功能从数据收集、发现、实时监控,向历史数据分析、决策分析、自动响应方向发展。采集实际的数据以及对数据的分析、统计、报告,给出执行策略是差异化竞争力的关键。

    统一、融合的管理,要求有统一的数据模型,实现多源数据相同框架的管理;要求基于开放的平台与体系架构,为系统管理工具选型提供更高的灵活性。

  2.2 实现与业务关联的架构

    IDC机房管理系统的目标是保障基础设施的持续高可用性,为业务系统安全、可靠地运行提供保障。

    调查发现,在众多的机房中,尽管已经部署了一定的监控工具,但是这些监控工具都是针对某一个系统或资源设计的,系统相互独立,无法很好的集成(如制冷系统、供配电系统、服务器网络设备之间的管理往往由不同的厂家提供,相互独立)。

    由于缺乏集成的管道和框架,其监控的管理信息不能共享,导致误报警和报警重复等现象。同时,由于这些工具都只是面向基础设施的监控,即使发现问题,也不能将问题与真正的业务联系起来,也就不能判断此问题对业务的影响,同时无法判断解决问题时的优先级顺序,使影响关键业务的问题被延迟,甚或被忽略,从而无法达成SLA的关键诉求。

    因此,一套能实时监控系统、部件运行状态,准确地判断对业务影响的系统是实现数据中心智能化管理的基础。要实现基础设施的关联管理,提升运营服务水平,要求:

    1、系统能够将基础设施的管理与业务流程连接;

    2、系统能够将所有不同的管理工具进行统一和集成,实现信息共享;

    3、系统能够根据共享的信息,建立起业务的关联视图。

    精细化的运营要求管理工具可将自动化和智能化融入到业务流程中,实现主动式监测和管理,专注于满足业务增长提出的可用性、容量规划和资源利用效率需求。

  2.3 基于ITIL的最佳实践

    基础设施管理解决方案不仅关注基础设施本身,而且还包括组织内部的组织流程、指令规范、 业务。 如何将组织流程、规范及业务融合到管理系统中,实现数据整合,提升运营服务品质是ITIL的基本理念,是数据中心对外提供服务的基础。

    TIL提供了一个业务与技术相结合的框架,是IT服务管理的成功实践总结、指导,已经成为事实上的行业标准,借鉴ITIL,运营可以以一种受控、有序的方式向最终用户提供服务。

    ITSM是建立在ITIL基础上的数据中心管理与运营服务系统,包括如下几个阶段:基础监控、融合集成、主动预防、自动优化等,是一个渐进过程,处于不断的优化系统与技术的动态演进中。

图 1 基于ITIL实践的IDC管理阶段模型

    基础监控,是IDC管理的起点,通常以数据采集、故障监控和修复重大故障所需时间作为评估标准,往往是事件触发式的、被动式的。

    在融合集成阶段,对基础设施管理评估标准为:所管理资源的可用性、在故障管理系统中关闭故障所需时间。要改善这些评估指标,离不开对业务流程化、最佳实践方案的反馈与循环改进。

    在主动预测阶段,保障业务系统的可用性和SLA,是支撑主动、高效管理的动因。对资源的性能进行评估、分析,并利用相关领域的技能与知识,对系统资源性能、问题、容量做主动式管理,对资源的优化配置提出建议,是该阶段实践的主要内容。

    自动优化阶段,系统会自动调整资源配置,以优化性能。业务策略、业务优先级及SLA会支配基础构架优化的行为,如基于业务均衡的IT资源(VM)与基础设施层的高效节能联动、基于容量管理的负载均衡与资源优化配置等。

    自主阶段,使用先进的成本与收益模型、性能与业务响应及时性等来实现业务自动化保障、业务快速部署、资源的最大化利用,实现IDC建设的弹性扩展。

3 持续构建精细化运营系统

    数据中心基础设施精细化运营的真正潜力在数据,数据中有效信息分布在不同的解决方案与DCIM工具中,信息的整合贯穿运营的每个环节,是实现精细化运营、构建竞争力、改变市场格局的有效手段。实现数据中心的精细化运营,可遵从ITIL的服务理念,围绕数据中心持续高可用、资源最大化利用以及服务运营持续构建。

  3.1 高效,持续高可用

    通过系统的监控和管理,确保基础设施的持续高可用性;通过数据的采集与分析,提升资源的利用率;通过自动化的运维模型,提升管理效率,降低成本,实现业务服务的敏捷化。

精细、广泛的管理

    基础设施的精细化、广泛的管理,建立在统一、完备的管理模型基础之上,DMTF发布的通用信息模型CIM框架提供了操作系统、应用程序、网络和设备管理的基本模型,但要实现基于业务、应用的管理,则需要对模型做合适的扩展,以满足运营的基本要求。

    在构建高效、持续高可用的运营系统的过程中,满足ITSM管理要求统一的数据模型的基本要求包括:

    1、自动的数据采集,设备管理、传感网络可持续采集和集中处理数据。

    2、具有虚拟现实的建模能力,包括IT与基础设备在内的资源,可准确的反应现场的配置。

    3、所见即所得,可视化的变更、配置,深入到CRAC、行、机架等级,实时可见的能力,可避免主观臆断的移动、添加、以及改变数据中心的配置。

    4、可持续跟踪IT资产的财务数据(购买日期、成本)以及物理数据(机架中的位置)的变化,实现生命周期内的资产管理。

    5、数据中心的能力规划与预测,集中式的电源、散热、空间、网络占用计算可预知机架能力变化,提高资产利用率。

    借助统一的数据模型、组件化及网络构建能力,DCIM能够管理分散的、不断增加的成组应用,支持、收集开局、扩容、迁移、退网等场景下的配置、变更信息,并进行相关处理,提供相关信息,支持决策。用户可在一个集中可视化视图中,以一种更直观、有效的方式来反映当前部件状态并执行控制任务。

前瞻性的问题管理

    IDC管理系统通过对基础设备、连续供电系统、连续供冷系统的监视、预测,管理粒度细化到设备的运行指标级,深入洞察,实现问题的前瞻性管理。

    实现对管理信息的简洁化访问,降低响应的时间,减少非计划的停机;消除故障,在问题没有发生之前预知;与ITSM的集成,事件管理、问题管理流程化,自动化,是前瞻性管理的必要手段:

   1、通过对连续供电、连续供冷系统的监控,感知系统、设备的输出能力以及性能下降,并对可能的业务影响进行分析,给出预警。

    2、利用容量管理,实现机柜级的供电、制冷、空调、网络的分析,规避资源冲突,在确保资源最大化利用的基础上,提供连续的服务。

    3、提供连续、实时的监控工具,通过信息的简洁化、快速访问,降低系统或者网络的停机时间,缩短MTTR。

    4、结合事件、问题管理流程,规避流程外的疏忽和遗漏,保障服务的持续可用性与SLA。

    智慧数据中心针对设备故障、运行性能的下降,提供容量、事件、问题管理等功能,可以预定义门限和条件,接收并处理告警、事件信息。

    针对问题管理,管理系统利用知识库、实践经验库,配置相应的功能集,当业务系统、应用子系统或部件的可用性降低或者故障时,可自动感知、并实现主动的管理,进行自诊断、自恢复操作。使得IT人员可聚焦主要的职责,开展主要的业务。

关联管理提升运营服务水平

    智慧管理通过配置服务策略,对资源进行监视,发现影响可用性和预设服务水平的事件、状态变化和性能降低。

    当被监视的系统、设备中发生事件时,该事件被记录并关联到相应的业务资源。在业务系统影响视图中,资源自身及依赖该资源的业务系统同时在界面呈现,帮助用户快速确定出该资源的问题是否影响到关键业务系统。

    同时,管理系统将事件与关联资源的可用性和响应时间指标结合,并可将用户或用户组感兴趣的资源组织在一起,形成业务系统视图,实现关联管理。

    实现数据中心系统、服务间的关联管理,需要建设以下几个方面的关键能力:

    1、构建配置、变更管理能力,实现资源的自动发现、自动感知变更、数据同步,使用如设备面板、功耗分布图、温度云图、监视Dashboard等工具,全面掌控环境变化。

     2、建立连续供电、连续供冷、管理网络等系统的拓扑关系图,提供完整的部件间的上下联关系树,并在资源能力下降时,进行关联影响的分析。

    3、共享的信息架构,通过业务关联视图,实现联动控制、集群调控、资源迁移、扩容等操作,保障服务的连续性。

    4、上述管理工具与服务流程(工单)结合,实现发现、测量、分析、调优的闭环管理。

  3.2 资源利用最大化

    随着数据中心的平均功率密度的持续增长,机位、供电能力、制冷能力的最大化利用,成为降低运营成本的关键。而基于供电、制冷、机位、端口的容量规划和管理,是支持数据中心可持续发展,实现资源利用最大化的关键技术。

负载均衡、能效最大化

    跟踪数据中心全局(整个数据中心)或者局部(一个机架)的电源消耗模式,并通过PUE与能耗分布识别改进策略,持续优化电源使用效率,是数据中心能效最大化运营的基本手段。通常包括如下几个方面:

    1) 完备的数据中心能效测量、分析、优化模型;

    2) 基于成功实践的负载管理服务,如应用与负载均布;

    3) 能效优化服务能力,如多机柜管理、联动,模拟配置和部署能力。

    能耗测量是数据中心能耗管理的基础,包括测量点的选择、测量参数等。能耗的管理策略决定了测量的模型,提供灵活的可定制的测量模型,可为不同场景下的数据中心能效优化提供理论支持。

    在具体的实践中,一般采用PUE、pPUE(局部PUE)、DCiE、能耗分布等模型来评估能效,但要准确的测量,需要系统能准确的描述数据中心的供电、供冷网络模型。

    供电网络的能耗测量借助智能电量仪、智能配电设备(如rPDU)、UPS等来实现。对于pPUE来说,还需要综合考虑负载分布情况,实现一个电源系统分供多个负载的精确计算。

    供冷网络的测量主要是借助冷量仪实现,对于一拖多的供冷网络,需要将支路冷量数据信息通过加权的方式将能耗分解到指定的区域负载。

    因此,供电、供冷网络模型的准确性,所具有的测量条件,以及所采用的测量技术是能效准确评估的前提条件。

    负载管理服务包括规划、监视、配置部署几个部分,并辅助以机位、制冷等因素,形成以供电、制冷、机位为基础的容量管理,可为机架乃至数据中心的业务的持续增长提供有效的支持。

    负载规划需要考虑整个数据中心(最小单位为一个机房)的负载部署,在保证业务连续可用性基础上,通过单机柜、机柜间的负载平衡配置,实现如变压器、UPS输出的三相平衡等特性,改善整个机房的供电环境,提升供电品质。同时,负载的均衡分布,可促成冷量的均衡分布,规避冷、热孤岛现象,改善机房的散热环境,最终显著的提升PUE。

    通过规划设计能够在数据中心建设初期确保设计的目标,但在实际的运营过程中,这些配置也不是静态的,会随着业务的伸缩不断的动态变化,如物理设备的移动、变更、扩容服务,以及虚拟机的迁移等。一个具有跟随配置变更的能效调控工具是实现能效优化运营的基本需求,应该具有多机柜关联管理、联动、模拟配置和部署能力。实施可参考:

    1) 实时监视功耗,了解服务器/机架的平均和峰值功率。利用能耗管理工具,通过减少空闲容量的配置,提升电力资源的利用率;

    2) 实时测量IT服务器的负载,并按照空调最佳COP调节制冷输出,通过实时的负载温度监测和制冷容量的自适应控制,实现按需供冷;

    3) 根据功耗分布,给出负载规划、配置优化建议,实现负载再平衡。


扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“YD5GAI”免费领取《中国移动:5G网络AI应用典型场景技术解决方案白皮书
  • 2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21
  • 3、回复“YD6G”免费领取《中国移动:6G至简无线接入网白皮书
  • 4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 7、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 8、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子