问题:超融合上面批量新建虚拟机快照失败问题排查
场景: 超融合被SCP纳管,发现每隔1小时会出现批量新建虚拟机快照失败 排查进展: 原因:创建快照失败的原因是虚拟机的快照数目达到了快照策略的上限(虚拟机快照上限128),再次创建快照会拒绝,需要等待过期快照清理掉才能继续创建快照
定位:通过超融合平台批量创建快照的结果来看,发现超融合上面并没有快照策略,而是scp平台下发的快照策略,通过分析发现最终是因为scp资源池上面开启了自动数据保护, 开启后scp会给超融合所有虚拟机下发指令每天定时打快照,如果失败会每隔1小时触发这个任务重试,又因为目前后台虚拟机快照达到上限,需要删除旧快照,删除旧快照又需要合并旧快照的数据,大量虚拟机同时间点大量触发删除前合并的任务,导致存储合并队列繁忙,出现一系列的快照失败问题
解决办法:关掉scp平台资源池-去掉勾选自动数据保护,让后台清理虚拟机快照残留文件,快照放在超融合上面做,并且快照只是在做一些高危操作前的一个临时保护举措,要彻底保护客户数据,建议做定期备份 |