临近岁末,假期离我们越来越近了。如何实现系统在无人值守的情况下安全地度过假期,是工程师不得不考虑的问题。
Section 1: 准备
IT系统如何“节前大扫除”
■ 孙青云 王万平
逢年过节,我们都有大扫除的习惯,以期能够干干净净、踏踏实实地过个安稳节。IT系统运维也有同样的道理。节前工程师要对企业的终端设备集中进行排查,把该打的补丁都打上,设置好终端配置的规则,根据规则来约束终端的使用,纠正终端设备的错误设置,确保每台受管理的机器都符合补丁管理和安全设置的要求。
打补丁需慎重
打补丁属于变更管理,是一个需要非常慎重的事情,有的补丁会与企业的应用软件产生冲突。如果打了不该打的补丁,将会对企业应用软件产生影响;如果没有及时打上该打的补丁,将会带来极大的安全隐患。对于企业来说,收集、测试、备份、分发等相关的打补丁流程仍然是一个颇为繁琐的过程,因此打补丁需要有IT管理人员来负责,不能是厂商发布的补丁,用户毫无原则地跟着打。通常,对一个新发布的补丁,IT管理人员首先需要判断这个补丁是否需要打,然后在几台设备上做小规模的测试,在确认要打的补丁与设备的环境、Office、应用软件没有冲突之后才能扩大到更大的范围内。
管理人员根据企业应用环境的实际情况,在测试企业应用环境的兼容性和稳定性后,再来决定应该打哪个补丁,而不是由厂商来决定。如果直接采用了厂商提供的补丁,特别是默认要打的补丁,常常会带来不必要的麻烦。在今年5月,某厂商发错了一个补丁更新,很多用户没有测试就直接打补丁,都纷纷“中招”。蓝代斯克补丁管理可以允许IT管理人员作出是否需要打某个补丁的决定,并且始终跟踪补丁更新情况,管理员可以以此来判断某个补丁对企业应用系统的重要性和必要性。
另外,企业用户在打补丁时,不能只盯着操作系统的补丁,第三方应用软件的更新和补丁也不容忽视。IT管理人员需要从更新操作系统和应用的补丁等多个方面来提高企业系统的安全性。对于企业用户,高效率的补丁管理需要能够快速扫描,发现漏洞,进行修复;详尽地报告,灵活有效地进行漏洞报警。蓝代斯克的补丁管理器通过扫描机制、修复功能、分析、报告和报警功能,帮助企业在异构IT环境中实现漏洞评估和补丁管理的自动化,获得补丁管理的主动控制权。
此外,一些杀毒软件也可以帮助工程师做好打补丁的工作。瑞星杀毒软件2008版本可以帮助工程师来安装补丁,具体操作如下:打开瑞星2008主界面,点击“工具”下的“漏洞扫描”,点击绿色的“运行”,即可打开“瑞星系统安全漏洞扫描”窗口,点击“扫描”,在之后的“漏洞扫描报告”中点击“发现的安全漏洞”后的“查看详细”,在弹出的窗口里点击“选择全部”,之后点击“修复选择的漏洞”就可以自动下载并安装系统补丁,安装完毕后建议用户重启计算机。
工程师需要及时地升级杀毒软件的病毒库,才可以对流行的病毒进行更为稳定的防护。很多用户虽然在使用杀毒软件,但是平时不注意升级,这种情况下即使安装了杀毒软件,还是会中毒的。瑞星2008采用了“即时升级”技术,不需要用户手动点击,而只要在联网的情况下产品就可以自动完成升级。
硬件体检有规则
节假日期间要保证计算机系统安全稳定运行,PC机、服务器等硬件设施的稳定是系统稳定的基础,工程师还有必要在过节前对硬件设施进行全面的体检。
PC机节前准备工作包括4个步骤:1.对PC机的硬件进行检查,包括电源、硬盘和网卡等。2.要安装操作系统的最新补丁包,还要对病毒库进行更新。3.将最新的应用程序和数据做备份。4.做一个最新的DVD Ghost克隆备份。一旦因使用者误删文件或者使用移动存储导致机器染病毒,造成机器瘫痪,拿事先做好的DVD Ghost备份盘恢复系统。
PC服务器节前准备工作包括5个步骤:1.对于PC服务器,节前要进行一次断电冷关机,检查电源、风扇和网卡等是否正常工作。2.检查RAID卡和热插拔硬盘工作状态是否正常。3.清理文件系统的历史数据,要保持文件系统有足够的可用磁盘空间,避免假日期间因文件系统空间不足造成应用故障。4.清理数据库的历史数据,保持数据库有足够的可用空间。5.备份应用程序和相关配置参数。
RISC服务器(又称小型机服务器)节前准备工作会比较复杂,包括以下步骤(以IBM p系列服务器为例):1.检查液晶屏提示信息有无故障提示。2.检查光线交换机、光线卡、网络交换机和网卡等是否正常。3.进行一次断电冷关机。4.检查电源、风扇、磁带机、光驱和存储设备等是否正常。5.删除日志文件,裁减历史数据,为应用文件系统留足可用磁盘空间。6.裁减数据库的历史数据,保持数据库有足够的可用空间。7.用errpt检查系统有无故障信息。8.检查HACMP的运行状态。9.备份应用程序和相关配置参数。10.用mksysb命令,对rootvg系统盘制作带引导的备份磁带。如果硬盘损坏,换上新硬盘,还可用备份磁带引导系统,并恢复系统。
当工程师在过节前对IT系统进行了体检以后,心中就有了底,不会在过节中提心吊胆了。一旦在过节中出现系统的停机故障,也因为有了事前充分的准备,而不会手忙脚乱。
产品推荐:
LANDesk补丁管理器
蓝代斯克的补丁管理器可以帮助用户从被检测出的漏洞列表中直接选择修复目标,决定修复方式,以确保快速解决问题。
Software Update Services 2.0
它提供包括两个组件的管理体系结构,一个是服务器组件,提供通过基于Web的工具管理;一个是客户端组件,可以将服务器和客户端计算机直接连接SUS 2.0的服务器上。
Section 2: 预警
作为工程师,最糟糕的莫过于那些重要的在线系统停机了,上司知道了,老板知道了,而工程师本人却不知情。要改变这种被动局面,可以尝试一下监控软件的短信预警功能。有了它,在老板发现重要系统出现故障时,工程师已经在一线忙碌起来了。
服务器运行状况 短信实时掌控
■ 北京大学 王万平
在哲涛服务器运行状态监控平台上,通过手机短信,工程师就可以随时随地进行重启等服务器管理的操作。
目前很多公司特别是网络公司、大型组织机构、政府部门均有5台以上的服务器,它们大多数用于Web服务器、FTP服务器、邮件服务器、数据库服务器、内部ERP系统等基于TCP/IP的网络服务,这些服务均要求实时在线,不可断线或是断线后要立即处理。
服务器状况随时掌握
大多数公司均有技术精良的工程师,在服务器出现问题的时候总是可以第一时间处理得很好,很快就可以让服务恢复正常。但是服务器什么时候出现的故障、什么时候服务不可用了,则需要专人监视着每一台服务器。工程师不可能24小时守候在电脑旁监视着每一台服务器的运行状态,服务器数量少的时候还可以接受,但是服务器数量多的时候怎么办?一会儿看看这台,一会儿看看那台?这显然是不可行的,服务器监控系统故障短信通知平台是工程师的好帮手。
为了满足大多数企业的需求,监控平台要具备对所有基于TCP/IP协议的网络服务(Web服务器、FTP服务器、SMTP服务器、POP3服务器、数据库服务器端口、多媒体服务器等)的监测以及对任何服务器的系统性能参数进行监测的能力,并在这些服务或是性能不正常时进行短信或邮件报警。有多种服务器监控平台可以实时监测服务器的运行状态,当这些服务出现异常(不能连接、返回错误代码)时,平台以GSM短信形式通知服务器的直接管理者,这部分的监测不需要企业安装任何软件到服务器上即可完成监测。
一些工程师可能会对服务器CPU占用、内存使用、某程序的内存使用(比如MS SQL Server的内存使用)感兴趣,那么监控平台也要为满足这些企业的特殊要求而开发数值监测模块。通过数值监测模块企业可以监测任何希望监测的值(内存、CPU使用率、数据库连接数、活动连接)。另外,监控平台必须具有国际化的特征,要能支持国际标准的SNMP协议。监控平台软件要最大程度地隐藏SNMP协议本身的复杂性,使得用户轻松地在平台中使用此协议管理、操纵、监控服务器的性能。
没电脑 照样重启服务器
通过手机短信报警使得工程师、管理员可以随时随地得知服务器的不正常信息。如果工程师接到报警,但身边既没计算机也没网络,怎么办?对这样一个问题,有的监控平台开发了手机短信管理服务器功能。通过这一功能,工程师只需要简单回复短信就可以管理服务器的日常服务,比如:重启IIS、重启Apache、重启Oracle数据库等。对于服务器较多的企业,对服务器的管理可能是一件非常麻烦的事情,监控平台可以具有手机短信应急管理服务器的功能,同时还具有在监控平台中对所有服务器进行统一管理的功能。管理员只需要把日常管理任务添加到监控平台中,即可以在监控平台随时对所有服务器进行集中管理。
一些企业可能还有特殊的需求,比如需要对机房温度进行监控。监控平台的数值监控系统不仅可以监控服务器的性能参数,同时还可以在经过简单的二次开发后监控所有信息(只要可以转化为数值均可监控)。这使得系统可以无限制地扩展,可以监控任何信息,比如对机房温度的监控,仅需要添加温度传感器和温度采集器即可监控,并记录实时值供管理员以图表形式随时查询。
系统预警管理的分级处理方式
■ 中信网络科技股份有限公司金融事业部副总经理 王健
在监控系统运行中,监控系统会从网络、操作系统、数据库、应用服务器、Web服务器等环节上收集大量的监控信息,这些监控信息的组合可能预示着某种潜在的性能问题,需要可灵活定制的预警机制,并且通过多种报警方式(电子邮件,手机短信等方式)通知管理员。
对于银行等具有复杂系统的单位来说,预警管理应该能对事件处理模块传递过来的信息进行排队,然后能够根据优先级通过手机短信、语音、E-mail等转发和通知给不同级别的处理人员。
监控值班人员(一线支持人员)
在制定监控管理规定时,作为一级支持人员的监控值班人员的主要职责是:要通过统一的监控平台,7×24小时监控所有生产系统;当发生预警管理规定中定义的事件(严重报警、未知错误),按照要求到预警平台登记,并第一时间通知管理责任人;负责跟踪事故的解决,并按要求的时间间隔向负责人不断汇报情况。
系统管理员 (二线支持人员)
系统管理员是二级支持人员,其主要职责是:指导当班监控值班人员的工作,按照事故处理流程处理预警事件;当监控系统发生报警事件后系统主管作为第一责任人处理事故;汇总各类生产事故,查找监控系统未覆盖的环节,及时将监控体系未覆盖的环节在CMDB中以CI模块提出;后台监控管理系统进行CI与业务视图关系模型的建立;处理监控系统中发现的性能报警及次要错误,跟踪解决突出问题,主动消除隐患;定期发布系统监控问题分析简报,供领导参考、优化系统;按照应用配置及监控的变化,调整监控系统的模板及阀值设置;负责协调开发人员及时更新应用系统可用状态的检查方式。
专家支持组(三线支持人员)
专家支持组也就是通常所说的技术大拿,他们的主要职责是:按照生产系统监控检查部分的要求,对业务应用系统提出各层次的监控指标及监控检查手段,与监控系统管理员协同纳入监控体系;应用系统如果发生变更,在监控系统中评估是否需要调整相应的监控体系;对于各类常见事故制定相应处理流程纳入到紧急处理流程工作环节;在应用系统实施变更过程中,控制筛选需要对监控体系进行变更的环节,及时协调监控管理员实施监控体系的变更。
建立了预警分级处理的制度后,各级支持人员能对预警信息进行统计分析,总结每类事件的实际响应频率,让不同的人员能够看到自己职责范围内的预警信息,能够提供灵活地组合条件查询。
产品推荐:
Nagios
Nagios是一个用来监控主机、服务和网络的开放源码软件,它可以透过网络监视各种服务,如TCP、SMT、POP3、HTTP、NNTP、PING等等。它提供一套接口,任何人都可以利用这个接口,为任何特殊的服务开发监视插件,然后交给Nagios运行。
当所监视的对象(主机或服务器)发生问题时,或是问题解决时,它可经由E-mail、呼叫器或是任何设定好的方法,向相关人士发出通知。对于在外度假的工程师来说,只要Nagios监控的对象发生故障,系统就会自动发送短信到手机上。
哲涛服务器故障短信通知平台
此平台可以对Web服务器、FTP服务器、MAIL服务器、域名服务器等所有基于TCP/IP协议的服务进行监控,可以对服务器的CPU使用率、内存使用、磁盘空间、网络流量(网卡)、任意进程占用内存、TCP连接数等服务器重要性能指标进行监控,可以对数据库的会话数、活动会话数进行监控,可以对任何能转化为数值的参数进行监控。同时此平台还提供短信报警功能,任何受监控的变量都可以指定一个有效期范围,当这些变量不在有效值范围时系统将通过手机短信的方式进行通知。
LANDesk系统管理器
LANDesk系统管理软件具有深入细节的系统性能监控和维护能力,能够通过同一控制台执行系统、服务器和安全维护任务,未雨绸缪地防止出错,从而帮助工程师轻松保持企业系统性能。同时,它还能通过一个直观易用、无须浏览器的Web控制台和综合预警选项等其他功能,为工程师提供简明易用、延展性强的系统性能监控能力。
LANDesk系统管理器能够直接从每个计算机硬件、软件以及OS中实时收集系统健康与状态信息,帮助工程师确保系统工具和系统服务的正常运行、系统的健康度和可用性,实时直观地了解系统性能。
Section3: 排查
通过远程管理软件,身在外地的工程师能通过网络对机房里的服务器实行远程控制,甚至通过一套键盘鼠标显示器能控制多达千台以上的服务器设备,只用一根网线,管理100多台服务器。所有这些功能的实现,无疑解决了节假日期间维护网络系统正常运转的工程师的后顾之忧。
有准备 IT系统才能快速恢复
■ 宁夏银行信息技术部高级工程师 孙青云
任何计算机系统,在使用一段时间以后,都会或多或少地出现一些故障。对于银行、证券和邮政等对连续工作要求很严的单位来说,停业事故的发生就是计算机管理员厄运来临的时候。如何在系统已经瘫痪后能迅速恢复系统,是工程师必须首先要考虑的问题。
作为业务应用的客户端用机,PC机的系统维护比较经济的办法是对系统做一个Ghost克隆备份,然后把驱动程序备份、应用程序、配置参数和重要数据等打一个压缩包,将Ghost克隆备份、Ghost程序和压缩包刻录到DVD光盘上,DVD容量最大可达4.7GB,足够满足一般的应用。如果应用程序升级,相应的Ghost备份也要升级。如果该PC机的系统崩溃,可用该DVD备份盘恢复系统及应用程序,能够迅速恢复业务。如果该PC机发生硬件故障需要更换不同机型的PC,用该DVD备份盘恢复后,还应该更新网卡等驱动程序。
我单位有一个代理业务的客户端管理机,装的是Windows系统,由于使用者误删文件或者使用移动存储导致机器染病毒,时常造成机器瘫痪。假如在放假期间,出现这种情况后,业务人员也可以拿事先准备好的DVD Ghost恢复盘将操作系统恢复,再恢复应用程序,从而让业务很快恢复正常。
PC服务器广泛应用在小规模的业务应用的服务器端。保证PC服务器安全可靠运行的常用手段是RAID(磁盘冗余阵列)技术。RAID 1技术是两块硬盘冗余备份,牺牲硬盘空间换取系统的可靠运行。RAID 1是阵列卡管理两块SCSI硬盘互相镜像,一块硬盘损坏不影响系统正常使用,当带电拔下坏硬盘,插上同型号新硬盘,系统会自动进行镜像同步,保证系统的稳定运行。
我行柜面业务前置机、代理业务前置机系统架构相近,系统建设时,均采用相同型号的7台HP 570PC服务器(均配有阵列卡、两块热插拔硬盘,采用RAID 1),其中6台服役,1台备用,既经济又实用。平时一块硬盘出现故障,系统仍可正常运行。在极端情况下,当一台机器硬件出现问题,则将其1号槽硬盘插到备用机的1号槽中,待备用机上启动正常后,将新硬盘插入2号槽上进行同步,这样操作系统和应用可快速得到恢复。
RISC服务器广泛应用在中等以上规模的企业核心业务应用系统的服务器端,有IBM p系列服务器和HP9000系列等。
以IBM p650为例,在系统建设时,单台服务器应尽量考虑启动硬盘采用两块硬盘,利用AIX的PV(物理卷)镜像的技术在第2块硬盘上镜像,保证系统可靠。
整个应用的系统建设,还要使用HACMP高可用性群集技术,采用两台服务器共享一台存储设备,其中一台服务器为主设备,另一台服务器为从设备。利用HACMP软件,将应用程序、存储逻辑卷、数据库和网卡等定义为一个资源组,当该主服务器出现故障,HACMP会自动把资源组切换到另外一台从服务器上,保证应用业务能够快速恢复。
对于IBM p系列服务器来说,还应当配备磁带机,用mksysb命令,对rootvg系统盘制作带引导的备份磁带。如果硬盘损坏,换上新硬盘,还可用备份磁带引导系统,并恢复系统数据。
当一个实时的应用系统瘫痪后,主管信息技术的领导关心的是在现有的条件下,能否迅速恢复。如果不能,最低的要求是购买一台同型号的机器恢复系统。这就涉及到安装操作系统及其补丁包、配置网络环境、安装数据库、安装应用软件、应用调试等。如果准备不充分,一两天都不能迅速恢复。所以在建设应用系统的时候,就要考虑系统瘫痪后的快速恢复能力。采用RAID技术或HACMP技术能提高系统的安全运行,系统上线后工程师要及时备份系统数据和应用数据,真正做到有备无患。
远程遥控服务器要小心黑客
■ 喻巧云
随着机群服务器的日益普及,越来越多的用户提出了对异地服务器设备进行远程监管的要求。特别是对于那些拥有外地分支机构的客户来说,统一、集中、安全、简便地监控和管理各处的服务器设备更是非常必要,能有效地减少和避免信息系统罢工给业务系统带来的风险。
KVM(Keyboard键盘、Video显示器、Mouse鼠标的缩写)系统是一项先进的硬件解决方案,可以协助使用者通过单一的多电脑切换器控制端,轻松地访问或者监控多台电脑、服务器和周边设备。KVM系统作为大型机群管理、部署、维护和监控不可或缺的设备,已经成为机群和服务器管理必备的工具。提供服务器远程控制工具的厂商很多,不仅有一些服务器厂商,还有一些第三方软件厂商提供相关产品。
相对于模拟式KVM,比较先进的KVM系统是充分利用了现有的以太网和其他IP网络,取代了对专用电缆和信号系统的依赖,可以通过简单的Web界面或基于客户端的软件控制台,实现对远程服务器的一对多控制。曙光SKVM over IP系统作为曙光第二代SKVM系统,可以实现通过Internet环境,以TCP/IP网络为接口来传送视频和控制信息。系统管理员可通过Internet或LAN便可以直接远程操控机群系统中的任何一台服务器。SKVM over IP技术提供了相对弹性的管理方案,网管人员甚至可以在全球任何地方,通过TCP/IP网络来远程管理分散在世界各地机房中的机器。
安全是影响远程控制的关键一环。采用硬件视频压缩技术,远程控制系统在确保安全性的前提下,可实现BIOS级多机群远程异地单一KVM控制管理。同时,远程控制系统可以采用身份认证、加密传输、专用数据通道、日志分析等技术保证KVM远程/异地操作的安全性。无论是在家里还是在办公室,或者出差在国外,工程师都可以控制机房里的系统运行情况。
另一类软件是通过完整性检查功能来保证安全,比如pcAnywhere,它允许管理员锁定安装以防止黑客更改 pcAnywhere的设置,并在检测到更改时停止运行pcAnywhere。它还可以将连接限于指定的TCP/IP地址和子网之间,再加上PKI 和对称加密、强制密码以及大量日志记录,从而确保只有授权用户才能访问被控端计算机。
总之,KVM系统能为网络及资料中心的机架空间及信息环境创造最大效益、降低成本、避免多余的键盘、显示器和鼠标的杂乱,同时还能降低能源消耗、节省机架、机房乃至楼宇空间的使用面积。在它的协助下,企业技术人员将不用再穿梭于不同电脑之间,可以大幅度简化工作流程、强化生产力。
产品推荐:
SKVM over IP系统
企业机房里充斥着各种异构系统,好的远程控制工具必须能支持跨平台管理。曙光SKVM over IP系统可以在不同的服务器环境中使用,不仅可以应用于曙光服务器,也可应用于HP、IBM及DELL的硬件平台,同时也可在Windows、Linux或Solaris、Unix等各种不同的操作系统中应用。当任一服务器节点发生问题时,曙光SKVM over IP可立即发现并加以处理,一改过去网管人员必须在庞大的机房中不时巡查以确定服务器节点是否正常工作,实现了服务器机房与控制室分离。
pcAnywhere 11.0
pcAnywhere可在Windows 98/NT/2000/XP平台上运行,几乎支持所有的网络连接方式与网络协议。利用pcAnywhere,工程师可以轻松地实现在本地计算机上控制远程计算机,使得两地的计算机可以协同工作。Symantec pcAnywhere 提供多层次的安全性,确保只有授权用户才能连接到pcAnywhere被控端。使用被控端和主控端序列化功能,管理员可以通过向所有被控端和主控端对象(必须同时出现在两端才能建立连接)添加安全代码来防止外部访问。
RemotelyAnywhere
RemotelyAnywhere是一款相当有特色的远程控制软件,该软件提供中文的操作界面,除了可以让用户通过浏览器远程遥控被控端电脑以外,还允许用户通过软件管理远程电脑,小到检查远程电脑当前运行状态,大到创建用户账户、编辑注册表等都可以支持。另外,该软件提供了功能强大的文件传输功能,同时也允许用户建立FTP服务,让用户使用FTP软件上传或下载文件。更具吸引力的是,RemotelyAnywhere用户还可以通过PDA或者手机连接远程电脑,完成电脑管理和文件传输等功能。由于手机所使用的通信协议与HTTP有一定的差异,因而并不是支持浏览器控制的软件都能支持PDA与手机。 |