Аналогичная проблема, но с локальным хранилищем.
Supermicro X8DT3
Aadptec 6805E
4 x Hitachi HDS723020BLA642 2Tb SATA3 (собран RAID10),
1 x Hitachi 500 Gb SATA3 и 1 x Crucial M4 CT064M4SSD2 64 Gb (собран гибридный RAID1 на 64 Gb для загрузки, на остальном объеме - обычный том для бэкапав)
ESXi 5.0 623373
Нагрузка - примерно 10-15 флегматично работающих рабочих мест и около 10 серверов, также не отягощенных всевозможным трафиком (почта, файловое хранилище, контроллеры домена и т.п.).
Работает с сентября.
До декабря - никаких нареканий.
В декабре один раз завис: пищал Adaptec, перезагрузил, оно сказало, что потеряло конфигурацию и попросило подтвердить существующую, подтвердил, пустил его дальше, все тома были в состоянии Optimal, RAID10 - в режиме Rebuild. Все восстановилось и продолжало работать.
С февраля начались регулярные зависания с симптомами ("Lost access to volume..." и т.п.). Приходиться перезагружать при помощи Reset, т.к. ESXi работает, но при попытку сделать Reboot штатно, вроде бы и начал что-то там готовить к перезагрузке, но перезагрузки не наступает и все опять сводится к Reset. После перезагрузки картинка знакомая: RAID10 в состоянии Rebuild.
SMART винтов - в порядке.
Частота отказов уверенно возрастает.
Набрал статистику: в основном, проблема возникает в утренний час пик (народ активно работает на виртуальных местах).
Поискал в инете - аналогичная проблема наблюдается еще с версии ESXi 3.5. Четкого решения или однозначной причины не найдено. Есть различные успешные псевдорешения (типа, "перепрошил контроллер - все вылечилось!"), но проблема повторяется через некоторое время (через неделю, например).
Проблемы возникают с разными контроллерами и дисками (видел, например, 3ware 9690SA-4I, WD 1500HLFS, сигейты и еще несколько моделей). Материнские платы - однозначно сказать невозможно. Превалируют различные модели Supermicro, но это, скорее, из-за бОльшей популярности, чем из-за предполагаемого дефекта. Как минимум, проблема наблюдалась на однм Intel S5000PSLSASR.
Теперь вот и iSCSI хранилища тоже страдают такой же проблемой.
В общем, я к чему вывалил весь этот поток сознания: если предварительно резюмировать, то проблема наблюдается на большом количестве разнообразного "железа" и общее тут - ESXi в разных версиях.
Предполагаю, что оно - именно там и копать нужно туда, но доказать не могу..
"Вот и все, что я хотел сказать..." (с) Форест Гамп