数据中心网络管理之分布式网络管理
如今,服务于企业自身业务发展的自主网络体系日益扩张,结构更加复杂,呈现出地理分布广、接入方式多、对网络性能要求高等多层次化需求。
如果整个网络的运行过度依赖于一个网管中心,那么,一旦网管中心发生故障就容易导致整个网络管理的无序,甚至瘫痪。所以,这种过度集中式网络管理的模式不适于对大规模网络进行实时性要求较高的监控与管理。在这种大背景下,网络管理的层次化分布部署势在必行。
数据中心网络管理之分担负载 明晰责权
大型行业均以省、市、地州或行政大区划定了与其业务特性相符的配套网络架构和管理体系。在这种多分布、逻辑架构复杂,且广域特性涉及BGP(边界网关协议)、OSPF(开放式最短路径优先)、多域、单域等多种环境下,要想在单个管理中心实现有效的监控,是不太现实的。数据采样间隔过大时,不能实时反映性能数据的变化趋势,并及时做出应有的反应;
相反,采样间隔过小,面对大型、复杂的网络又会造成管理信息的交换消耗大量的带宽和计算资源,成为系统的I/O瓶颈,造成存储空间的急速增加。例如,在某行业的大型网络实际运维中,用户发现采样间隔由10分钟变为5分钟后,数据量每天递增了20GB.
因此,依据行业的业务特点和网点的分布情况,CIO需考虑地理环境的优势、运维人员的技术支持能力、网络链路资源及机房场地、交通便利条件等诸多因素,选择与企业业务规模相对称的区域级别的网络运维管理中心。各分支机构依据就近接入、统一管理的原则接入网络运维管理中心。这样大量节省了长途链路的资费,提高了相应的互连带宽,各分支机构也有了技术支持后盾。
由于这种网络管理的层次化划分,加上软件产品对分布式部署的支持,可以有效地将事件和性能数据过滤和归并,通过制定一定的管理策略,把有限的管理信息用于向总运维调控中心汇聚。这样,各区域网络运维中心有效地分担了网络管理对细节因素的追踪,同时又能使总运维调控中心具备宏观的视野,从而顾全整个业务体系的正常运转。
从单一的集中式管理走向层次化分级管理是网络管理发展的一大进步,大型网络从一个大的星形结构逐步过渡到层次化星形结构(树形结构),甚至网状结构,其优势是非常明显的。层次化管理模式明确了运维管理的关注点和与之相应的职责,网络有广域、局域之分,那么管理也必定有差异。
数据中心网络管理之采购分布式网管系统五项注意
在大型行业的运维管理中,运维管理中心往往设立在总部机关所在地,其运维重点在于关注广域链路的通断、长途链路利用率、双链路负载均衡、路由抖动、时延等保证关键业务全网通达的技术参数性能。而各分支机构的日常运维事项又与楼层交换、用户终端、网内异常流量审计等内容密切相关。
那些诸如楼层交换设备、用户端故障、局域网内流量异常、病毒局部侵扰等并非广域运维关心的重点。因此,合理的层次化分级管理会有效地处理好这种管理范围和职责的划分。
利用现今网络管理软件对分布式部署的全方位支持,管理员可在局域范围内把网管工作做细,也可通过过滤策略把关键信息上传到运维管理中心,从而把控全网细枝末节的网络健康状态,保证关键业务的顺畅运行。这种分级化管理的方案选型应关注如下几点。
分布式网管在分支机构进行部署时,不宜求全求大,宜求精求实,最好采用统一的系统平台, 避免各自为政采购大型软件,最后因无实施能力导致搁置。
在实际情况中我们不难发现,由于网络建设并非同步进行,而且缺乏统一的实施标准,许多信息部门虽然很有预见性地采购了网络管理配套软件,但由于未考虑它的实施难度和基层技术人员的运维技术水平,导致采购的大型网管软件并不能发挥其产品宣传所能达到的实际运维功能。所以应在一个大的整体策略下,通过集中评测甄选适合本企业统一部署实施的管理软件。
应加强基层技术人员的技术和管理策略培训,并同步进行配套管理策略和制度建设。通过标准化的流程策略和相关制度约束,保证网管策略自上向下地有效贯彻。
企业采购的软件无论是商品化软件或者自主二次开发的平台,应考虑支持分布部署策略和事件上传过滤、归并机制。实际网管实施过程中,告警事件不是报不出来,而是报得太多,“狼来了”喊多了就没人相信了。这在采用了邮件、短信、声、光、电等多种报警模式的情况下尤显突出。做好告警事件的有效归并,不但能减少告警事件量,而且便于故障根源的快速判断和响应。
总运维控制中心应具备基于业务视角的监控运维管理手段。依据关键业务的特性将相关监控管理技术指标用一个维度综合计量,加快故障根源的快速定位与分析,规避“眉毛胡子一把抓”的无序状态; 也能有效避免出现业务故障时,相互推诿责任的现象。
配套行政手段需落实到位,仅靠单纯的技术手段,管理策略并不能完全落实。需建立有效的机制,落实督促管理策略。分布式管理,并不意味着放任自流,而是要通过有效的机制使网络管理工作更加有效。
在规模不是很大、网上业务应用不是很多的企事业单位,可采用分布式管理模式,在数据采集的及时性、技术细节的把控和响应上都会有较好的保证,而且能起到相互冗余的作用。
数据中心网络管理之集中式网络管理
在层次化分级网络管理的基础上,随着网络管理外延的逐步扩充,基于业务的运维管理模式,特别是基于数据大集中的管理模式,又作为一种新亮点凸现出来。
在传统的分布式处理模式下,业务信息分布在不同地理区域的内部服务器上,业务信息的管理和可用性受到了很大限制,许多应该透明、共享的信息在人为的壁垒下不能充分发挥应有的作用,而且系统的升级和新业务的开发部署也都不能及时响应。
加上新业务系统的逐步上线,分布式部署在机房场地的双路供电、空调、机柜布放空间等一系列问题上都明显陷入捉襟见肘的窘境。要想改变这些局面,企业投资金额势必会远远超出新建一个数据中心的预算,并且发展空间受制约。在这种情形下,以业务信息为主导的集中式网管再次走上了历史舞台。
数据中心网络管理之数据走向集中的需求
随着业务规模的扩大,许多应用都面临着数据大集中的问题。数据信息所体现的时效性价值需求日益提高,数据越能及早汇总,就越能体现出相应的价值,这在股票交易、原油交易、电子化贸易等业务实时性要求较高的行业尤为突出。而这些数据及应用系统的多层次化部署,随着配套设备的逐步老化、数据量的急剧增加,带来了运维成本越来越高、时效性越来越差的诸多弊病。
原本一套运维体系所具备的人力、物力、运维手段、硬件支撑环境,在层次化部署环境中需要复制出若干个大小不一但又“五脏俱全”的拷贝,这无疑增大了运维成本支出,也是一种资源的浪费,而且也不符合业务快速发展的需要。
随着网络管理外延的逐步扩展,从单一的网络设备、链路管理,发展到目前针对业务应用所涉及的服务器性能、存储、网络、关键应用监控、流程管理、服务级别管理等一系列基于业务服务管理(Busssiness Service Manager-BSM)的全业务服务支持模式,IT综合服务管理体系集中化管理的趋势愈加明朗,并在诸如Cisco、IBM、HP等国际大公司的实际部署中得以验证。
网管系统关注四点
在Cisco、 HP、中国网通等国内外知名大企业的关键业务集中化管理中,其IT业务垂直化管理的框架也颇有借鉴之处。它们在全业务系统范围内提供同等水平的业务服务支持,提高了客户的满意度。
与此同时,业务数据的集中存储与管理,为高水平安全的数据保障创造了条件,业务连续性达到了一个新的高度。用户只是授权数据的使用人,无需关心数据的地理位置、存储介质、维护背景。
而且,这样就规避了分布式部署中产生的软、硬件投资金额巨大的问题,也为集中有限资金提高运维管理手段提供了良好的基础。
在企业规模较大、业务应用较多、业务网点分布较广的大型企事业单位,应考虑设立区域数据中心集中管理与关键应用相配套的网络设施、服务器设施、存储设施等。
集中式网管发挥了数据大集中和财力、物力、人力集中的优势,做强做大相应的配套设施,为业务应用的持续发展提供扩展空间。在考虑灾备冗余的同时,适度把控建设规模的拓展预期,避免前期投入预期过大而实际发展缓慢造成的不必要浪费。
在基于数据大集中的数据中心集中管理系统选型中同样也须注意几点。
不盲目跟风。目前,随着国际大型网管软件公司的战略调整,许多软件公司之间的并购、整合屡见不鲜。而其整合后的产品线往往也只是从概念上有了一个更完整的体系。但在实际情况中,新老产品的更新换代、用户端使用习惯、产品功能的预期差异等都或多或少会出现问题,特别是做过相应二次开发的用户单位,在盲目跟风中,不但产品功能提升有限,而且会与预期实施效果存在较大落差。许多产品的整合未必在真正意义上做到功能的提升,在追求利益最大化的商业软件销售中,这种产品整合后的潜在风险向最终用户转移的倾向比比皆是。
在加强网络管理的同时,要不断引进成熟可靠的新技术。以虚拟化技术为例,有些企业的应用程序已经是多年前开发的产品,只能运行在一些特定的操作系统和硬件上,而那些特定的操作系统和硬件由于过了保质、保修期,维护和运行的成本很高。而通过虚拟化技术虚拟出来的硬件平台能够运行那些特定的操作系统,盘活了企业的资产。
诸如这种虚拟化技术的应用会大大提升业务的发展空间,如早期企业的自有邮件系统给每个员工20兆附件、总计50兆的存储空间,这在当时已经算是 “富家子弟”了; 现今发展到50兆附件、200兆空间已不足为奇。但旧技术条件下实际存储空间利用率远非我们预期,而是更加浪费了。
利用虚拟化技术的动态存储空间调配,能很好地解决此类问题,提高存储空间的有效利用率。所以新技术的引进绝对是“第一生产力”,管理只是一种优化的运维手段,新技术的不断引进创新才是发展的最终动力。
在考虑与业务相关的软、硬件环境建设监控管理的同时,要充分考虑机房场地环境的监控管理。集中化管理涉及的刀片服务器、PCCluster等大容量存储的集中上线,使得针对机房场地空调、湿度、电源、消防和部署空间提出了更高的需求,因此要充分考虑到各因素的可拓展空间和性能需求。
目前,PC Cluster从256个节点、512个节点到1024个节点的大批量部署愈发普遍(目前,诸如Cisco、IBM等国外知名大公司除在一定高端领域保留大约14%左右的高端Unix服务器外,其在x86平台和Linux平台的业务拓展呈明显上升趋势,所占比重越来越大),这种部署方式对高密度堆叠产生的热量排放就提出了很高的要求。网络管理在集中模式下应有针对性地对业务附属设施进行全方位的监控。
在有条件的情况下,应尽可能地将业务相关性涉及的服务器性能、网络设备、链路状态、UPS、空调等综合信息展现在多块大屏之上,配合声、光、电的多种告警触发方式加强告警事件的及时响应,保证业务的高可靠持续运行。
在集中模式下的网络管理要充分考虑大流量数据带来的压力。由于集中模式产生的数据汇聚压力明显增大,加上目前高端设备均采用支持大带宽的光纤接入(这在机房预先布线、交换设备模块采购中尤其要引起高度重视),所以硬件网管设施在接入实际网络,特别是在直连模式的情况下,信息部门在关心接口类型的同时,一定要考虑流量压力产生的负载问题。
诸如带宽管理器等设备如果与实际物理带宽不匹配,无疑会导致瓶颈的出现; 同时,也要考虑在这种高密度部署情况下,软件在采集数据时的采集间隔和数据递增之间的平衡关系。
数据中心网络管理之集中和分布相得益彰
IT归根结底要服务于业务,因此,CIO必须首先从业务的角度来考虑企业要搭建一个什么样的IT架构,相应的服务管理模式也必须与之相符。在面对业务分布式部署和数据大集中形成的数据中心这两种不同的运维管理需求时,应着眼于实际需求情况,把关注点放到影响关键业务顺利运转的细节上。
如果对长途网络带宽、服务器并发数据处理性能压力等有较高要求,则选择分布式部署方式。它能合理地分担单点的压力承载,减少对长途链路资源的占用,能更好地根据业务部署特性做到更加有针对性的、更加细致的监控管理。
对于数据大集中模式的网络管理而言,在做好常规管理内容的同时,应全面考虑面对大集中产生的大规模服务器、存储、交换设备、空调、UPS等集中部署带来的管理压力,要将这些与保证业务顺利运转密切相关的因素统筹监管起来,特别要关注和引入面对集中模式的自动化监控管理配套设施的上线。
试想,面对成千上万台服务器设备,在发生电源故障、年度巡检等引发的停机事件时,设备起停操作在人工方式下将是一个“浩大的工程”。
为了使各专业应用系统所依托的服务器机群、网络系统和相配套的场地环境保障措施在最佳状态下运行,充分发挥整个业务系统的高效率运转,需要建立一套完整、有效的技术服务程序化流程, 采取必要的日常运维和应急系列措施预案,以便在系统万一出现故障的情况下,能够做出快速响应,以最短的时间,排除故障,减少停机时间对业务运转的直接冲击,提高生产效率、降低运行费用。
无论采用分布式还是集中式管理模式,其实两者并不是完全孤立的。在实际部署环境中,两种方式依据业务部署的特点应当有机结合成一个高效运转的机体,合理地分担网络承载的压力,使最终用户能体验到同一标准的高品质IT服务支持,提高用户的满意度。
本文来源:佚名 作者:中国IT实验室收集整理