AIX 性能管理与监控建议(二)

原标题:AIX性能管理与监控建议(二)

AIX 性能管理与监控建议(二)
文章图片
转自公众号@twt社区 , 作者陈炽卉
3I/O监控
3.1IO响应时间评估
什么样的IO响应时间是合理的?如下是一些经验规则的总结:
对于使用机械硬盘、且未配置存储同步镜像的磁阵 , 评估随机IO响应时间的经验规则
AIX 性能管理与监控建议(二)
文章图片
配置同步镜像时 , 评估随机IO响应时间的经验规则
AIX 性能管理与监控建议(二)
文章图片
如果使用SSD存储
AIX 性能管理与监控建议(二)
文章图片
对于顺序IO而言 , 不需要担心IO服务时间 , 更应该关注吞吐率;3.2通过nmon快速定位繁忙的磁盘
进入nmon报告的DISKBUSY页面 , 观察WAvg的取值 。 如果WAvg在90%以上 , 则可能存在磁盘热点 , 需要重点监控相关的磁盘 。
注意:Avg显示的平均值是全监控过程的平均(包括磁盘完全idle的时段);而WAvg则是显示在监控时段且磁盘繁忙时的平均;由于nmon数据采集周期往往远远长于业务峰值时间 , 因此WAvg一般比Avg更有意义 。
如下:

AIX 性能管理与监控建议(二)
文章图片
3.3通过sar/iostat命令监控繁忙磁盘
可以通过sar–d或iostat–D监控繁忙磁盘 , 如下 , 其中响应时间以毫秒为单位 。 一般如果读平均响应时间超过15ms , 写平均响应时间超过2.5ms , 需要重点关注 。
排队时间和sqfull取值如果长期不为空 , 则需要判断是否队列深度设置太小(queue_depth) 。

AIX 性能管理与监控建议(二)
文章图片
说明:为方便脚本分析 , 一般建议在设置-D选项同时 , 加上-l(小写的L)和-T选项 。 这样对应每个hdisk的输出将在同一行显示 。
3.4通过fcstat命令监控光纤卡
通过fcstat可以观察光纤卡的支持速率和运行速率 , 例如:
#fcstatfcs0|grep-ispeed
PortSpeed(supported):8GBIT
PortSpeed(running):8GBIT
如果运行的速率低于实际支持的速率 , 则需要检查交换机与主机的链路状态是否正常 。
如果显示如下两个指标持续增长(注意取值肯定是非零值 , 重点在于增长速度) , 则需要相应的调整光纤卡的max_xfer_size和num_cmd_elems:

AIX 性能管理与监控建议(二)
文章图片
或使用fcstat–D判断 , num_cmd_elems的取值应该大于或等于<highwatermarkofactivecommands>+<highwatermarkofpendingcommands> 。 比如如下例子中 , 可以设置num_cmd_elems为180+91=271.

AIX 性能管理与监控建议(二)
文章图片
3.5使用filemon监控IO读写情况
可以用filemon监控lf(文件系统) , lv(逻辑卷) , pv(物理卷) , vmm(虚拟内存管理)层面的信息 , 如下:
#filemon-T1000000-u-Olf,lv,pv,detailed-ofmon.out
#sleep5
#trcstop
生成的filemon报告输出在fmon.out里面 。
注意:如果报告中出现xxxeventslost , 则说明出现了tracebuffer溢出 , 可以适当增加tracebuffer(由-T指定) , 或者缩短监控周期(从filemon到trcstop的间隔) 。
3.4阅读filemon报告
可以通过filemon报告得到最忙的文件、逻辑卷以及物理卷信息 , 如下:

AIX 性能管理与监控建议(二)
文章图片
也可以从filemon的Detailedreport中获得不同文件、逻辑卷、物理卷的读写情况以及响应时间:

AIX 性能管理与监控建议(二)
文章图片

AIX 性能管理与监控建议(二)
文章图片
AIX 性能管理与监控建议(二)】其中seeks的百分比实际上预示了IO的模式 , 如果seeks比例接近100% , 则说明IO是随机型的 。 反之 , 如果seeks接近0 , 则说明IO是顺序的 。
4网络监控
4.1监控网络速率
可以使用entstat–dentX命令监控网络速率 , 以及收发包情况 , 例如如下场景:
#entstat-dent0|grep-ispeed
MediaSpeedSelected:Autonegotiate
MediaSpeedRunning:100Mbps,FullDuplex
External-Network-Switch(ENS)PortSpeed:100Mbps,FullDuplex
显示的网络运行速率为100Mbps;如果实际测试中网络带宽超过12.5MBps , 则说明网络可能是性能瓶颈 。
4.2监控网络响应时间
ping命令主要用来检查网络的连通性 。 从ping的结果 , 可以检查网络的质量、丢包率等 。 Ping响应的time值 , 可以用来判断两台主机直接的网络传送延时情况 , 在局域网服务器之间(大多数为万兆卡光纤连接) , time值应该低于1ms.