云存储

随“虚”而变----云时代下的运维深度思考

云时代下的运维到底是简单还是复杂了?我们的思维是不是还禁锢在传统的运维里面?
edithfang edithfang 2014/06/22

赞助商

伴随着IT新技术的发展,大数据、云计算、虚拟化等对大家而言已不再陌生。在企业中随着虚拟化技术的实施推进,虚拟化技术在优势显现的同时,各种问题也随之而来,很多运维工程师感觉虚拟化后不是越来越轻松,反而越来越累。问题到底出在哪?云时代下的运维到底是简单还是复杂了?我们的思维是不是还禁锢在传统的运维里面?

毫无疑问,虚拟化通过资源优化整合,大幅降低了硬件投入、能源、数据中心的物理空间等成本,虚拟服务器正在承担着企业基础甚至核心架构的重任。但虚拟化却增加了IT运维的复杂性,加之很多企业都是重建设轻运维,没有理念的转变和IT运维管理工具、运维策略的支撑,‘后虚拟化时代’带来的这些新问题将会使得IT部门麻烦重重。

问题一:虚拟环境的不可见性

与传统的物理环境下的IT运维管理不同,虚拟环境具有“不可见”的特殊性,表现为:动态的数量增长、场所的自由变更等等。在实现虚拟化之前,服务器和业务应用程序的应对明确,虚拟化之后,业务应用程序现在在哪里运行以及某台服务器硬件故障会导致那些业务受影响,这就要求企业系统管理软件能够统一从虚拟化软件中取得构成信息,将虚拟机按照业务单位/物理服务器单位进行组合,从而实现对应关系的可视化,同时,在故障时,需要能在虚拟化环境下迅速排除故障。

问题二:虚拟环境的监视盲点

虚拟化软件中的统计信息子系统可收集有关对象的资源使用数据,然而仅凭虚拟机的监视无法正确掌控实际运行状态。比如虚拟机监视器显示CPU的资源已经用完了,但是该虚拟机搭载的物理服务器是否还有余量,因此,必须从虚拟机和物理服务器两方面同时进行监控,只有从这两个方面掌握准确的运行状况,通过动态实时地分析,才能实现资源分配的利用最佳化。虚拟化使得用户可以很容易地添加虚拟机,实现快速扩展,但对新添加和移动的虚拟机的监控管理没跟上的话,则会导致监视盲点。这时必须针对动态变化的系统环境进行持续监控。

问题三:虚拟环境的标准化管理

在开始虚拟化之前,企业的IT管理者需要站在可运维可持续化长期发展的角度去看待虚拟化的建设,从资源配置管理、实体机容量规划、虚机和实体机性能监控、虚机的自动维护,以及IT服务流程等诸多方面进行稳固、调整,进行IT标准化管理,并以此为基础随‘虚’而变。

据了解,很多企业中“被”虚拟化的业务系统运行状况却并不乐观。比如,IT部门优化了服务器资源,但网络资源却没有升级,一台实体服务器向外连接的带宽还跟从前一样,如果被虚拟化承载的多个业务系统是跨越多个实体物理机进行部署的,那么网络性能与交换机背板带宽将会成为虚拟机流量交换的“短板”,业务系统因为虚拟化反而会变得更加缓慢。因此,如果企业不能将这一系统里的基础数据导入到IT运维最为关键的CMDB(配置管理数据库)中,迫不及待地点击“安装”,殊不知等待他们的却是另一个危机陷阱。当然,我们也可以通过建立负载均衡来优化工作负载,或者对多个业务系统进行划分,把高CPU高IO、高CPU低IO、低CPU高IO、低CPU低IO的不同业务应用系统区分开来,放到不同配置的实体物理机上或纳入不同配置的资源池,从而避免混乱划分带来的风险。随着每台实体服务器上托管的虚拟机数量增多,资源的整体利用率提高了但业务系统的潜在风险因大集中反而更大了,此时实体服务器性能监测的重要性就不言而喻了。

作为信息化管理者,如果我们不考虑标准化和IT运维的可持续性,一窝蜂似地去上马虚拟化产品,最后的结果只能是将这些解决方案硬生生地搬到混乱的基础架构上,接下来将会是麻烦重重危机四伏。

那么云时代下的运维该怎样?如何构建虚拟化环境下的IT运维体系呢?下面我们做个简要分析。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,所以云时代的运维需要从以下2个方面来考虑:

一、改变现有的IT运维管理工具。

IT运维的工具需要能够管理IaaS平台。Iaas平台可以看作为一个大型数据中心,它具有大型数据中心的异构化、虚拟化和大容量的特点,这必须要求管理云计算的IT运维工具必须具有标准化、虚拟化和自动化的特点:

1)通过标准的数据采集方式管理异构的云平台;

2)能够监控和管理虚拟化的云设施包括虚拟服务器、虚拟数据库等;

3)具有高度的自动化能力以完成对大量物理、虚拟设备的监控管理并能主动发现潜在问题及时进行告警。

二、为用户提供Saas模式的运维服务。

云的到来无疑给中小企业带来了好消息,企业无需投入大量资金、人力进行运维管理平台体系的建设,只需购买基于Saas的运维管理服务,即可享受先进的运维管理工具和运维管理体系。基于云的IT运维管理工具必须提供基于Pass模式的标准软件接口,用户可以在云上添加对专业设备的监控管理工具模块或开发自己个性化的运维功能模块,这样既可以满足自身业务的需求也使云运维管理工具日渐完善。

构建云时代的IT运维体系,则需要注意以下三点:

一、打破原有各运维资源之间的分割,进行一体化监控和管理。

 打破以往的运维分割,对复杂异构的IT资源环境(如网络设备、服务器、存储、安全设备、操作系统、中间件、数据库、业务系统、前端应用等)进行一体化监控和管理,保障IT基础架构稳定可靠运行、降低系统和业务应用宕机风险,实现提高运维效率和优化运维流程、控制运维成本的目标。

二、把安全管理作为体系框架的核心,针对资源池化的特点进行合理的控制与调度,实现资源的统一管理、安全运行。

在企业中,安全管理中心作为运维管理平台与资源池之间的连接纽带,便于信息安全管理的贯彻与落实;虚拟化资源池的建立,可以实现IT系统对资源分配进行统一的管理,同时整合虚拟化管理平台,则可实现统一运维管理。系统和应用的部署由人工操作变为模板控制,这大大减少了对集成商和运维人员的依赖;原有对基础设施的维护分解为对物理机和虚拟系统的维护。当物理机或虚拟设施发生故障时,可调用不同的基础设施替换,降低了发生单点故障的可能性;事件、流程、人员与安全中心并列,形成对资源池的全面管理,实现了资源的统一管理和安全运行。

三、建立业务导向的一体化管理,实现高效运维。

云计算体系下的运维目标首先应该以业务为导向,如新业务的快速部署、系统容量的平滑扩容、随需而变的资源分配等,根据业务目标形成IT服务的管理目标,保证IT服务达到要求的等级标准。其次通过自动化的运维工具完成系统部署、配置管理以及监控报警等功能,降低故障发生率,提升故障发生后的响应处理效率,实现业务的快速恢复。最后通过改进运行维护服务能力管理过程中的不足,持续提升运行维护服务能力。

云时代的到来对IT运维领域带来挑战也带来机遇,运维工具及现有的运维管理模式、方法、标准是否能适应基于云的IT架构模式,还需我们进一步的持续探索和努力。

本文转载自:http://xjsunjie.blog.51cto.com/999372/1426306

评论(1)