如何做好大型数据中心的运维?
如何做好大型数据中心的运维?
2021-02-23
如何做好大型数据中心的运维?
随着数据中心建设规模的不断扩大,新技术层出不穷,数据中心变得越来越复杂。大型数据中心往往由多个大型集群系统组成,其运维工作需要具备硬件、网络、服务器、存储、安全、业务等各个方面的知识,需要自上而下的去做。
当一个数据中心的规模非常大,所面临的挑战和问题都是超前的时候,很多在小环境和系统下不是问题的问题就在这样的规模下凸显出来。因此,要做好一个大型数据中心的运维工作,需要对整个数据中心的技术体系进行长期系统的研究。只有对整个数据中心有了很好的了解,才能有针对性地制定一些运维计划。甚至可以二次开发一些监控运维软件,对整个数据中心进行有效的管理和监控,提高整个数据中心的运行效率,减少故障的发生,从而将运维工作推向一个新的高度。一个大型数据中心往往包含很多小系统,运维工作是围绕这些具体的应用系统进行的,具体可以分为六个部分:基础运维管理、日常业务运维、网络、服务器、存储、安全。本文将讨论一般大型数据中心应具备的操作和维护方法及能力。
首先,从数据中心的基本运维管理来说,主要有硬件配置管理、维护性优化、监控、告警处理、自动运维、断网、停电、机房容灾等运维工作。硬件配置管理包括机柜中每台服务器的型号和硬件配置,并知道哪些业务系统正在使用这些服务器。即使在虚拟化的运行环境中,也需要知道哪些物理机器在资源池中流动。数据中心有大量的物理机和虚拟机,需要使用自动化运维。自动化运维不仅可以提高运维效率,还可以减少人工参与。同时,数据中心可以自我管理,释放人力。并做好数据中心可能出现的故障的监测和报警工作,以便在故障发生的第一时间了解问题。往往一个大断层从一开始的小断层逐渐扩大,最终导致整个大系统的崩溃。因此,一些小的异常必须及时消除,这些异常必须通过完善的监控和报警系统进行检测。
考虑到数据中心的日常业务运维,主要有资源、机器配置、资源使用、网络吞吐量、故障恢复、备份应用、集群建设、流量、压力、迁移扩容、升级、上下级业务关联、资源利用、异常处理、应急预案等。其实这些日常运维工作耗费大量的人力和时间,是运维工作的主要部分,也是最繁琐的部分,但最不能体现性能。一个数据中心能长期安全稳定运行,靠的是日常工作的积累。只有关注这些细微的变化,才能不断优化。压力测试、软件升级、业务部署、异常处理等几乎成为运维日常必修课。只有做好这些工作,才能避免重大故障,快速部署新业务,根据资源使用情况及时扩充设备。
考虑数据中心网络,主要包括网络硬件设备、ACL、OSPF、LACP、VIP、流量、负载均衡、2347层情况、网络监控、万兆板、核心交换等。网络是数据中心的重要组成部分,是一切工作的基本保障。没有网络,数据中心就无法运行,所以保证网络稳定是数据中心运营维护中最重要的事情。这里主要关注的是网络硬件、ACL部署和流量监控。网络可以说是包罗万象,涉及的设备和协议技术太多,需要不断学习和加深对网络技术的认识,才能做好网络运维工作。
在数据中心服务器方面,主要有文件系统、内核参数调优、各种硬盘、内核版本、kernel恐慌等等。Linux系统不仅在服务器中占据主流地位,在网络操作系统中也是如此。只有掌握Linux系统的使用,才能更好的处理服务器和网络设备的运维。Linux是运维方面的基本技能。除了熟悉Linux系统的操作,还需要监控和管理服务器和内核的运行状态,以减少服务器故障的发生。一般来说,大型数据中心包含数千台服务器,几乎每天都有各种服务器问题。只有深入了解服务器,才能很好的消除问题。为了防止服务器故障导致业务中断,一般在服务器上部署虚拟化技术或集群技术。当一台服务器出现物理硬件故障时,业务可以顺利切换到其他服务器,而不会对业务产生任何影响。这些虚拟化技术增加了运维难度,也需要深入研究虚拟化技术。
考虑到数据中心存储,体系结构更加多样和复杂。云计算、虚拟化、大数据等相关技术进入数据中心后,存储发生了巨大的变化。块存储、文件存储、对象存储支持多种数据类型的读取;集中式存储不再是数据中心的主流存储架构,海量数据的存储访问需要一种可扩展性和可扩展性强的分布式存储架构。在大规模系统的支持下,分布式文件系统、分布式对象存储等技术为各种存储应用提供了高度可扩展、可扩展、极其灵活的支持和强大的数据访问性能,并且由于这些分布式技术支持标准化的硬件,因此可以低成本地构建和运行大规模数据中心存储。当然,分布式存储不是为了取代现有的磁盘阵列,而是为了应对数据量和带宽的高速增长。另一种是软件定义的存储,代表了一种趋势,即存储架构中软硬件分离,即数据层和控制层分离。对于数据中心用户来说,存储资源的管理和调度是通过软件实现的,实现了存储资源的虚拟化、抽象化和自动化,可以完全实现数据中心存储系统的部署、管理、监控、调整等需求,使得存储系统灵活、免费、高可用。企业和互联网数据正以每年50%的速度增长。新增数据中结构化数据总量有限,且多为非结构化和半结构化数据。数据中心存储体系结构还需要业务发展的强大灵活性。低成本、大规模扩展和高并发性是大型云数据中心存储架构的基本技术属性。如何存储大量混沌数据并进行深度应用处理,快速提取有价值的信息形成业务决策,将成为各类企业的生存基础,也是存储架构衍生出的未来存储和业务发展方向。
最后,从数据中心安全的角度来说,安全是十几项:攻击防护、升级备份、BUG捕捉/bug查找、脚本工具、数据安全、服务检查等等,每一项其实都包含了很多内容。例如,在攻击和保护方面,这主要是指防止外来异常入侵者对数据中心的恶意和无意攻击。恶意攻击是指有人故意使用各种攻击手段进入数据中心,窃取或破坏重要数据,以达到其不可告人的目的。还有无意的攻击,因为整个数据中心都是与外界互联的,其运行是动态的,不断变化的。不可避免的会有一些异常流量攻击数据中心,有时甚至是来自数据中心内部,比如一些服务器中毒、硬件故障、环路等网络故障、流量异常等,都会影响数据中心的运行。因此,如何攻击和保护数据中心是一个大问题。这不是在数据中心部署几个安全设备就能解决的。整个数据中心需要全面统一规划,有针对性地部署一些安全防护措施。随着各种黑客技术的提高,安全防护措施也要不断完善。这是一个不断学习和提高的过程。只要数据中心还在运行,这种改善就不会停止。为了便于操作和维护,应该做好一些执行脚本,以便在紧急情况下快速处理问题。比如某个数据中心的业务出现异常,为了快速恢复业务,需要调整路由,将所有流量引向其他数据中心,这就需要在核心路由器上进行调整。这时有一个现成的脚本可以自动执行,达到快速切换的目的。数据中心还应该为其他工作准备许多脚本,以便在紧急情况下可以快速使用。
通过以上分析,你一定会惊讶,原来数据中心运维包含这么多内容,包括几十个大大小小的项目,每个项目的内容都不是那么简单,涉及到很多技术知识。操作和维护是数据中心稳定高效运行的关键。只有很好地部署和执行这些操作,数据中心才能长期稳定。

展开