一、 问题描述 设备在每个周日凌晨1:00左右都会出现严重丢包 二、 故障现象 观察日志信息,发现设备在每个周日凌晨1:00左右都会出现严重丢包,由于第一次写案例库,忘记截图 三、 处理排查过程 1、 设备后台取黑匣子分析,黑匣子的获取方式有: (1)、后台工具获取(400协助处置): 1. 上传获取黑匣子的脚本到TMP目录下 2. 添加脚本执行权限后,进行执行pkg.sh脚本,会让选择获取天数,默认是获取填写的天数+2天,如下填写的是2天,其实是获取的4天的黑匣子 3. 获取完成后,会显示文件下载的路径 4. 取下黑匣子,开始分析 (2)、控制台直接获取: 11.X版本可以直接在控制台获取黑匣子, 2、 取CPU日志分析: 得到一个CPU状态运行图,通过图像分析,在周日凌晨一点左右,CPU运行日志为空(本来是有图片为证的,但是忘记保存了) 四、 故障分析结论 由CPU运行图像可以分出,可能是因为设备中日志所占内存过多,进入后台 查看日志信息:ls /aclog/log_data/aclog/下面看看有多少天日志 发现有将近一年的日志,证明推断正确。 五、 解决方案 5.0-6.1版本有两种解决方案: 1、打KB包 查看日志信息:ls /aclog/log_data/aclog/下面看看有多少天日志 解决方案:删除部分日志,打KB包 打KB包报错:
解决方法(400协助): 进入vi /tmp/KB-AC-20141023-401_package-01.sh添加版本信息 升级版本 11.0到11.9只能通过升级版本解决设备应用调度异常 12.0以上可以打内存优化包 六、 建议与总结 1、 对于设备异常问题,通常要取黑匣子进行分析。 2、 对于故障时间,最好是向客户提前获取,以减少我们的分析时间 3、 对于设备调度异常的解决方案,一定要确定好版本信息 |