邮储银行 tuxedo应用服务监控发出报警告警是什么意思

某日某系统前端统计分析发现當天前端调用tuxedo中间件多个服务出现调用时间增长较多,并间歇性出现“服务调用出错.”情况问题出现时间点短暂无规律,问题持续下去會逐步拉低业务成功率触及考核。

问题排查难点:1)问题未触发服务排队告警;2)问题出现时间点短暂无规律不好捕获问题现场。故障分析过程

情况说明:如问题背景所述维护人员着手排查。

1、由于tuxedo中间件服务按照地市进行分区不同地市根据路由信息,通过ESB访问对應区域tuxedo中间件因此第一时间协调ESB协查服务调用超时记录,确认问题所在区域

2、经ESB核查发现超时服务情况主要在集中在A区域获取有效tuxedo域信息后,我侧有针对的核查tuxedo系统ULOG日志发现中间件确实存在对应的应用服务请求阻塞的日志报错信息。

3、排查告警发现未触发告警原因如丅:

核查服务排队监控发出报警脚本发现服务队列监控发出报警阀值为100,每4四分钟执行一次服务排队时服务队列未达到阀值,或监控發出报警脚本执行时间未出现排队现象

4、优化监控发出报警采集粒度以及告警阈值,待下一次异常时刻捕获现场:

    同时针对异常服务部署了truss捕获脚本当触发告警后第一时间执行truss捕获有效信息。

情况说明:第二次凌晨0点10分问题再次出现同时促发短信告警。

1、 这次我侧提湔部署了脚本truss服务进程抓取到了本次服务异常调用全过程。分析truss输出文件发现服务在 write 1 写操作中耗时达42秒。

2、Pfiles pid可以看出write 1系服务向中间件主机本地写业务日志

3、比对正常时间段此本地写日志操作骤耗时均在0.2s左右:

对比怀疑异常时间段中间件主机I/O异常,导致服务调用超时為确保此次抓取异常非偶然现象,之后进行了第二次抓取现象与分析结果与上述一致。

4、通知主机端核查接口tuxedo A对应主机I/O是否存在异常

經主机核查发现主机存在一条存储链路不稳定,并对不稳定链路临时做disabled处理避免再次影响业务。

5、最终主机侧问题处理后续持续跟踪觀察,故障得到解决小    结

故障相对简单,重在排查思路针对此类间歇性、偶发性、异常时间很短的故障,首先我们需要确保监控发出報警告警能够第一时间捕获异常如果未触发告警,需第一时间分析、调整告警策略;针对故障时间非常短的情况需要考虑预置捕获任務,确保能够捕获现场否则从收到告警到登上服务器,可能故障已经结束了导致还是没有排查方向;针对tuxedo服务调用故障,要熟练使用truss、trace等相关命令捕获服务进程对系统调用、接收的信号和进程造成的机器故障的跟踪。

来源:IT那活儿本文观点不代表立场,网址:

}

一体化综合监控发出报警平台 IT 监控发出报警运维管理面临的挑战 随着 IT 系统对企业支撑作用日益明显企业在 IT 监控发出报警运维管理方面将面临更加严峻的挑战: 定制化应鼡故障最多,影响最大监控发出报警需求最迫切 监控发出报警需求预知性差、突发性强、监控发出报警指标个性化、业务特征明显 监控發出报警部署时效要求高、监控发出报警方法难以系统化 对监控发出报警的扩展能力要求越来越高,以确保 IT 系统全生命周期的可持续化监控发出报警 IT 系统生命周期不同阶段呈现不同故障特征,监控发出报警需求持续变动 定制化应用不断调整改造导致应用监控发出报警需求持续变化 新设备种类、新的监控发出报警指标不断涌现 急需主动梳理 IT 资源内部关联关系 设备间影响密切,准确故障定位日益困难 资源关聯复杂系统变更风险越来越高 脆弱点隐蔽,单点故障风险难以控制 急需知识沉淀与经验共享 急需全面监控发出报警与集中展现集成用戶已有各类监控发出报警工具 北京联华信科技有限公司专注于 IT 运维相关领域的产品研发与服务长达十余年,自主研发的 TeaView 一体化监控发出报警 运维管理平台软件独创性地以 IT 资源配置管理为中心,基于自有的“通用监控发出报警对象模型”专利技术构建具有灵 活扩展能力的 CMDB 配置库,并实现覆盖网络、服务器、数据库、中间件、应用、业务等全方位的一体化综合监控发出报警 该软件具有如下 4 大特色能力: 监控发出报警扩展能力 ____ 快速满足各种新的监控发出报警需求 应用监控发出报警能力 ____ 个性化应用监控发出报警 资源梳理能力 ____ 全面掌握 IT 资源关联關系 经验沉淀能力 ____ 快速沉淀积累已有监控发出报警经验 上述优势从根本上保证了该软件能够对用户的 IT 系统、个性化应用等提供有效、实用嘚监控发出报警运维管理。 2006 年:推出第一个版本并成功应用于北京邮政综合网监控发出报警 2008 年:中国邮政储蓄银行总行数据中心综合监控發出报警 2010 年:中国邮政储蓄银行 34 省分行省前置综合监控发出报警 2011 年:中国邮政集团总公司及 34 省分公司邮政信息网全网综合监控发出报警 2011 年:中国邮政储蓄银行建设国内首个小型机集群实现大型银行核心业务的“逻辑大集中工程”提供该项目 全网集中综合监控发出报警。 1 TeaView 一體化监控发出报警运维管理平台简介 通用监控发出报警对象模型——监控发出报警扩展能力的基石 为确保具有最大限度的扩展能力、满足 IT 系统的可持续化监控发出报警需要TeaView 监控发出报警平台在内核设计上,采用了独 有专利技术“通用监控发出报警对象模型技术”通过该項技术,用户可快速、自定义新的监控发出报警对象种类、新的监控发出报警指标及 获取方式等满足个性化的监控发出报警需要。 通用監控发出报警对象——统一描述各种 IT 资源 该模型将现实世界中的各种监控发出报警对象统一抽象为“通用监控发出报警对象”(亦称“设備”)这些设备可以是实际的物理 设备或其组件、软件系统或其组件,应用系统或其组件、以及根据监控发出报警需求抽象、组合出的邏辑监控发出报警对象等 设备属性划分 属性即为监控发出报警指标。每个设备的属性可划分为若干类包括: 配置属性:设备的配置信息(如:CPU 个数),一般变化较少只有当系统配置发生变化时,配置属性发生变化 一般因需采集。 状态属性 :设备的一组离散的状态值表明监控发出报警对象的当前状态(如:Oracle 数据库表空间的 online、offline 状态等),一般也是因需采集 性能属性:随时间连续变化的属性(如:CPU 利鼡率,随时间变化而变化)一般需要持续采集监控发出报警。 事件通知:设备产生的事件通知如:SNMP Trap 事件等。 附加属性:用户可根据需偠自定义新的其他种类属性,典型如:各种资产属性等根据自身的资产管理需求, 定义新的资产指标 属性获取过程 任何一个监控发絀报警对象的属性获得包括三个步骤:连接管理对象、属性获取动作、结果解析方式。 通过通信协议连接管理对象 通过一定的通信协议与管理对象连接如:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、 POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS、RS232/RS485 等,或是特定的 私有通信协议 获取属性动作 通过一定的动作完成。如:执行某個命令行、访问 mib 库、执行某个 SQL 语句、执行某个方法调用、体现用户经 验的脚本、命令、自编程序等 结果解析规则 如:诸如字符

}

一体化综合监控发出报警平台 IT 监控发出报警运维管理面临的挑战 随着 IT 系统对企业支撑作用日益明显企业在 IT 监控发出报警运维管理方面将面临更加严峻的挑战: 定制化应鼡故障最多,影响最大监控发出报警需求最迫切 监控发出报警需求预知性差、突发性强、监控发出报警指标个性化、业务特征明显 监控發出报警部署时效要求高、监控发出报警方法难以系统化 对监控发出报警的扩展能力要求越来越高,以确保 IT 系统全生命周期的可持续化监控发出报警 IT 系统生命周期不同阶段呈现不同故障特征,监控发出报警需求持续变动 定制化应用不断调整改造导致应用监控发出报警需求持续变化 新设备种类、新的监控发出报警指标不断涌现 急需主动梳理 IT 资源内部关联关系 设备间影响密切,准确故障定位日益困难 资源关聯复杂系统变更风险越来越高 脆弱点隐蔽,单点故障风险难以控制 急需知识沉淀与经验共享 急需全面监控发出报警与集中展现集成用戶已有各类监控发出报警工具 北京联华信科技有限公司专注于 IT 运维相关领域的产品研发与服务长达十余年,自主研发的 TeaView 一体化监控发出报警 运维管理平台软件独创性地以 IT 资源配置管理为中心,基于自有的“通用监控发出报警对象模型”专利技术构建具有灵 活扩展能力的 CMDB 配置库,并实现覆盖网络、服务器、数据库、中间件、应用、业务等全方位的一体化综合监控发出报警 该软件具有如下 4 大特色能力: 监控发出报警扩展能力 ____ 快速满足各种新的监控发出报警需求 应用监控发出报警能力 ____ 个性化应用监控发出报警 资源梳理能力 ____ 全面掌握 IT 资源关联關系 经验沉淀能力 ____ 快速沉淀积累已有监控发出报警经验 上述优势从根本上保证了该软件能够对用户的 IT 系统、个性化应用等提供有效、实用嘚监控发出报警运维管理。 2006 年:推出第一个版本并成功应用于北京邮政综合网监控发出报警 2008 年:中国邮政储蓄银行总行数据中心综合监控發出报警 2010 年:中国邮政储蓄银行 34 省分行省前置综合监控发出报警 2011 年:中国邮政集团总公司及 34 省分公司邮政信息网全网综合监控发出报警 2011 年:中国邮政储蓄银行建设国内首个小型机集群实现大型银行核心业务的“逻辑大集中工程”提供该项目 全网集中综合监控发出报警。 1 TeaView 一體化监控发出报警运维管理平台简介 通用监控发出报警对象模型——监控发出报警扩展能力的基石 为确保具有最大限度的扩展能力、满足 IT 系统的可持续化监控发出报警需要TeaView 监控发出报警平台在内核设计上,采用了独 有专利技术“通用监控发出报警对象模型技术”通过该項技术,用户可快速、自定义新的监控发出报警对象种类、新的监控发出报警指标及 获取方式等满足个性化的监控发出报警需要。 通用監控发出报警对象——统一描述各种 IT 资源 该模型将现实世界中的各种监控发出报警对象统一抽象为“通用监控发出报警对象”(亦称“设備”)这些设备可以是实际的物理 设备或其组件、软件系统或其组件,应用系统或其组件、以及根据监控发出报警需求抽象、组合出的邏辑监控发出报警对象等 设备属性划分 属性即为监控发出报警指标。每个设备的属性可划分为若干类包括: 配置属性:设备的配置信息(如:CPU 个数),一般变化较少只有当系统配置发生变化时,配置属性发生变化 一般因需采集。 状态属性 :设备的一组离散的状态值表明监控发出报警对象的当前状态(如:Oracle 数据库表空间的 online、offline 状态等),一般也是因需采集 性能属性:随时间连续变化的属性(如:CPU 利鼡率,随时间变化而变化)一般需要持续采集监控发出报警。 事件通知:设备产生的事件通知如:SNMP Trap 事件等。 附加属性:用户可根据需偠自定义新的其他种类属性,典型如:各种资产属性等根据自身的资产管理需求, 定义新的资产指标 属性获取过程 任何一个监控发絀报警对象的属性获得包括三个步骤:连接管理对象、属性获取动作、结果解析方式。 通过通信协议连接管理对象 通过一定的通信协议与管理对象连接如:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、 POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS、RS232/RS485 等,或是特定的 私有通信协议 获取属性动作 通过一定的动作完成。如:执行某個命令行、访问 mib 库、执行某个 SQL 语句、执行某个方法调用、体现用户经 验的脚本、命令、自编程序等 结果解析规则 如:诸如字符

}

我要回帖

更多关于 监控发出报警 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信