记录公司vsan故障处理过程


5月18号上午10点多,接到vcenter报警短信,显示vsan磁盘不可用,马上心里暗叫不好,因为入职时候交接人提过这个问题,在去年12月份有过类似相同的问题出现过。所以感觉这颗雷终于又炸了。废话不多说

 

先进vcenter上看一眼什么状态。

 

一片飘红,各种vsan报警,手机已经快被短信搞没电了。

 

赶紧看了一眼虚拟机情况,还好没有受到影响……

 

因为上次出问题后,交接人处理完并没有把虚拟机迁回35这台机器(之前出问题的就是这货)

 

暗自庆幸了一番,准备着手处理问题。

 

之前交接人说过是ssd的问题,之前他处理的过程中说是把ssd盘重新插拔一下就好了,然而我没看出来哪个盘是出问题的ssd(有2块)

 

所以还是保险一下,把业务都从vsan中迁到宿主机本地存储里。幸好占的存储资源都不大

 

迁了大概半个下午(中午恶补了一下vsan的东西,并且查了一下相关的资料,也问了问专家)

 

迁完了之后就开始准备重建vsan了

 

暂停一下,忘了交代一件事,之前找dell保修这个机器,dell说要提供日志,我就在idrac口收了个日志给他发过去了,然后说没什么报警,又问了问系统版本,vsan版本之类的。

只有反馈说raid bios近期有两个升级都是和vsan 有关的,升一下固件再升一下驱动就能恢复了,然后我倒腾了一下午这个升级固件和驱动的问题,其中挂着ssd重启,每次都得重启个半小时,真是心塞。结果升完了问题依然还在,看来这帮人貌似靠谱,但是还是不能全信啊。

同时我并不想找vmware,因为有心理阴影,怕他们再把环境给我搞砸了一次,那我周末就不用歇着了。

 

原厂的问题先扯到这,继续重建vsan

 

专家建议移除vsan磁盘组时选择“保持可访问性”,我试了试不太好使。于是就开始了各种尝试,比如:拔掉ssd然后重启,然而还是删不掉;拔掉ssd和所有sas,还是删不掉(已经开始有草泥马在心里跑了);最后专家说,要不你重装系统吧,肯定好使……

 

在重装之前还是来一把狠的吧,直接不管vsan里的东西,在移除磁盘组时选择“不迁移数据”,意思就是爱咋咋地。

恩,可想而知的删除了。

 

删完了之后,这叫一个高兴。然后又要建立磁盘组,你说这ssd贱不贱,删了磁盘组,屁事没有了,也不报警了。

 

得,您还是一边儿凉快去吧,于是我就把正常的那块ssd挂载了比以前多1块sas的磁盘组扔到了vsan里,为啥多一块?因为专家说了,ssd:sas的容量比不能超过1:10,

恩,专家的话还是要听的,虽然性能可能稍有损失,但是对于环境内的应用影响不是很大。处理完之后,反正过周末了,先跑两天看看吧!

 

于是在忐忑的度过了一个周末之后(中间远程看了一下状态,看了大概7、8次),恩,没出啥问题。

至于有问题的ssd,你爱坏不坏吧,dell你爱管不管吧,反正老子是不准备把他放vsan里了。

到此,问题解决。

今天到公司开始把所有虚拟机存储迁回vsan。完毕!