konto usunięte
Temat: Hitachi VSP + wysoki disk latency
Jest sprawa wyglada tak.Pojechalem wczoraj do naszego innego oddzialu, bo maja problem z vmwarem.
Firma (od miesiaca jestemy z nia polaczeni) uzywala wczesniej EMC jako SAN. Nie powiem dokladnie co, bo juz go nie maja. Jednak problem ktory tutaj zaraz opisze wystapowal tez na tej plaftormie.
Firma myslala, ze problem jest w SANie, troche sie pomylila. Nie mniej jednak kupili nowego SANa. Hitachi HDS i nowy VSP, z pierdolami jak 3D scaling (co to za glupota), Dynami Provioning. (42MB bloki) i jakies tam nowinki. Klient duzy, SAN ze 40TB Usable.
Wiec przyjezdzm na miejsce i mowie pokazcie problem, a koles OK.
Na jednego hosta przenioslem kilka maszyn. Jeden duzy 4TB server plikow, ktory uzywa 5 data storow, a na kazdym z nich dostalo 650MB wolnego. TAK TAK, zaalokowali jednego VMDK do calego VMFSa, nie pozostawiaja nic miejsca.
No i tak przenioslem te masyzny i koles puszzca backup jednej z nich.
Backup sie robi, robi i nagle jeb, disk latency wzrasta z 15 do 100, vCenter na 2 minuty nie odpowieda, inne maszyny na teym hoscie tez maja zadyszke.
W oknie performance w vCenter, widac przerwie w wykresie, nic po prostu nie ma. Zadnych logow w hoscie, zadnych w w VM. NADA NULL. A mialem chyba ze 5 konsole odpalonych i nic.
Dodam jeszcze, ze cluster jest dosc spory. 12 hostow 585G2, kazdy 64GB RAM i 8 CPU. Zasobow ze hoho. Kolejna sprawa fo liczba LUNow. Jest ich okolo 70.
Firma stosuje troche dziwna polityke, bo wiekszosc tych LUN to jedna maszyna, i LUN niektore maja po 100GB, gdzie rekomendawana minimalna liczba dla VSP jest 256+GB
Kolejna sprawa to alokacja calych VMFS dla jednego VMDK. Czy tylko ja mysle, ze to jakis absurd?
Co jeszcze zauwarzylem?
Po stworzeni nowego VMFS i dodaniu go do hosta, nastepnie wszystki hosty rescanuja HBA w poszukiwaniu nowych vlluminow i sytuacja sie powtarza. vCenter zamiera na dwie godziny i disk latency bije w kosmos.
No to szukam i probuje naprawiac, wiec
esxcfg-advcfg -s 1 /Disk/UseLunReset
esxcfg-advcfg -s 0 /Disk/UseDeviceReset
esxcfg-advcfg -s 256 /Disk/SchedNumReqOutstanding
esxcfg-module -s lpfc0_lun_queue_depth=64 lpfc820
zwieksza qdepth na Emulexie i maksuje disk request na LUNach.
Dodatkowo ustawiam resetowania rezerwacji SCSI, ale tu moze sie okazal dupa zbita, bo HDS rekomenduje Round Robin, a opcje powinny wspolgrac z opcja Most recently Used. Po chwili gatki z jednym kolesiem, okazuje sie ze tak mieli wczesniej i zmienili na RR. Cos te rekomendacje nie dzialaja jak powinny. Moze moimi opcjami byloby lepiej?
Nie mniej jednak restartuje hosta i widze, ze jest zmiana na disk latency, uzywane jest mniej. Moglem troche przegiac z wartoscia 256, moglem ustawic na poczatek 64/128, ale co tam.
Ok lecimy dalej. Wiec probuje ustawic sytuacje tak przed zmianami. I cholera znouwu blad, zwis vCenter i zero logow.
Jak myslicie, co moze jeszcze byc.
Jestem niemal 100% pewien, ze trzeba ustawic moje opcje na wszystkic hostach, zeby mialo to sens. Dodatkowo tzreba ustawic inny path selection na LUNy i jeszcze wywalic male LUNy i zwiekszyc mniejsce na LUNach dzie jest 600MB wolnego.
Co mozna jeszcze zrobic?
PozdrRafal S. edytował(a) ten post dnia 11.02.11 o godzinie 11:02