SUM服务器监控软件是服务器监控软件中最为流行的一种企业级监控软件系统,它具有功能强大、监控计数器齐全、完全可配置可管理、集中的监控软件、良好的可扩展性。它除了为企业单位提供IT系统(服务器、网络设备等)的基础监控外,还为企业提供运行在这些基础设施上的数据库、应用系统、进程等提供全面的监控。全中文的界面与配置管理系统,让所有中国运维工程师轻松上手。SUM让您可轻松设定高级报警策略并以短信或电子邮件方式通知运维人员,让服务器可能的故障被及时发现,尽可能早地发现关键错误让企事业单位赢取宝贵的故障处理时间。其核心监控方案如下图所示:
SUM特点:
按主机、按应用监控;
全WEB管理、中文界面;
集中监控跨平台操作系统:Windows、Linux、AIX、HP-Unix、Solaris、FreeBSD、VMWare等系统;
集中监控数据库,比如:Oracle、DB2、SQL Server、MySQL、PostgreSQL、达梦数据库、人大金仓数据库;
集中监控应用服务器与WEB服务器:Apache、Tomcat、JBoss、Resin、WebLogic、WebSphere等应用服务器与软件;
以下列出一些企业IT运维监控方案与需求,这些需求在SUM服务器监控软件中均可完全实现监控与管理。
1.1 主机监控管理
需求名称 |
需求描述 |
支持多种操作系统 |
支持多种操作系统 |
监控代理影响程度 |
主机监控代理应保证不会影响业务应用的正常运行,类似于“360的免打扰模式”,具备根据系统繁忙程度,调整数据采集频率的功能。 |
展示主机相关信息 |
例如设备名称、IP地址、管理员等 |
监控CPU |
形象化展示CPU的相关性能参数。例如CPU的使用率,CPU使用记录(绘制CPU曲线),多个CPU的性能显示。 |
监控磁盘 |
磁盘的使用率 |
监控内存 |
内存使用情况(为硬件保留内存、正在使用内存、已修改内存、备用内存、可用内存。),相于内存的使用变化绘制曲线。 |
监控进程 |
总进程数、指定的进程是否在线、用户指定进程占用CPU、内存情况等 |
监控日志 |
系统日志、数据库日志、应用日志中关键信息的准实时监控管理,应提供多种复合条件的监控规则定义,如包含与或非等判断规则等。 |
1.2 数据库监控管理
需求名称 |
需求描述 |
数据库连接状态 |
连接状态 |
会话与连接数 |
目前连接数据库的连接数。 |
表空间 |
表空间的使用情况、表空间碎片情况。 |
数据表 |
表名称。 |
缓存 |
缓冲区命中率。 |
锁 |
死锁、锁。 |
内存 |
数据库的内存使用情况。 |
数据库角色监管 |
用户角色权限管理、用户资源管理。 |
数据库空间监控 |
数据库文件所使用的空间情况。 |
1.3 网络设备监控管理
需求名称 |
需求描述 |
支持多种厂商多种型号网络设备 |
网络设备包括路由器、交换机、防火墙等。 |
呈现网络设备实体关系 |
通过图形和表格方式呈现网络设备的实体关系。 |
监控流量、流向等管理数据 |
能够对网络流量、协议等管理数据进行采集和分析,形成网络流量流向协议分析报表 |
监控网络设备端口状态 |
能够对网络设备的端口状态进行监控,并获取网络端口的性能数据。包括端口流入流出流量、端口错包率、端口丢包率、端口带宽利用率、负载、设备温度、CPU占用率、内存占用率、网络延迟(思科)等 |
1.4 常用中间件监控管理
目前监控中间件对象主要有WebLogic, IIS, Apache,
Tomcat, DNS。根据系统监控需要,选取IIS、FTP与Apache、Tomcat作为中间件来监控。
需求名称 |
需求描述 |
IIS服务日志解析 |
能够解析IIS服务日志,并能以直观的方式展示。 |
IIS基本信息监测 |
版本信息、IP地址、端口 |
IIS数据监测 |
字节数、文件数 |
IIS许可监测 |
匿名用户数、许可证数 |
IIS连接与请求 |
当前连接数、最大连接数、请求连接数、尝试登陆次数。 |
Apache日志解析 |
能够解析Apache服务日志,并能以直观的方式展示。 |
Apache基本信息监测 |
版本信息、IP地址、端口、安装目录、配置文件目录。 |
Apache性能监测 |
每秒字节数、每秒平均发出请求数、启动后总访问次数、启动后输出字节数。 |
Apache(其他与IIS类似) |
|
Tomcat基本信息 |
JVM版本、JVM厂商、操作系统版本、操作系统结构、最大JVM内存、JVM内存使用情况。 |
FTP监控 |
提供对于FTP是否正常工作的指标。 |
1.5 告警机制
需求名称 |
需求描述 |
重复警告事件处理 |
出现重复告警事件时不要频繁向上层模块发送重复告警信息 |
事件过滤 |
针对单位时间内发生大量事件的情况,过滤掉从底层提取的事件信息中监控人员认为不重要的信息,减少轻微告警的干扰,以提高监控与处理的效率。 要求可以提供灵活的过滤规则,便于维护人员灵活选择; |
告警级别定义 |
根据告警信息的严重程度,可以定义各个级别的警告,例如一般、重要、严重。 |
告警升级 |
对于系统中持续出现、重复发生以及超过规定处理时间仍未解决的告警,需要升级该告警的告警级别,以保证得到优先及时的处理。 |
拓扑图显示 |
要求在拓扑图中能够通过颜色改变帮助维护人员迅速定位发生告警的网元或应用组件,并能够在拓扑图上查看相应的告警明细信息,能够直接进行确认、清除等操作; 整体展示美观,符合显示要求。 |
预警形式 |
提供多种预警的形式 |
1.6 报表和分析系统
要求综合报表和分析系统能完成各类数据和运行状况的分析,自动生成系统运行状况报告、系统事件报告、系统安全报告等,可以充分反映信息系统为业务提供服务的质量。具体要求如下:
需求名称 |
需求描述 |
业务报表 |
针对业务应用系统,形成反映各业务系统使用情况的报表(提供模版的方式便于用户自行定制统计分析报表),同时监控报表应支持:在一张报表中,能同时展现出与业务应用系统相关的各种被管对象的性能、告警等数据统计 |
多种分析图表 |
能够提供柱状图、柄图、折线图、数据列表等多种灵活、形象的分析图表。且数据组合方式能够基于设备、时间段等多种查询方式进行,提供多种组合条件的统计分析 |
导出格式 |
报表能够导出为excel等多种格式用于数据交换; |
SUM服务器集中监控软件核心专注于企业的IT设备(服务器、数据库、路由器、交换机等)的集中监控,它目前已经广泛应用于政府机关、企业单位、制造企业、运营商等各行各业。