konto usunięte

Temat: Esxi5 Lost access to volume

Witam,

Ostatnio zgłoszono mi problem z wirtualkami tracą połączenie z dyskami. Odnalazłem w logach:

Lost access to volume
9ee68-79a5-5ef3fc7bbde7
(BACKUP-POCZTA-EMC) due to connectivity issues.
Recovery attempt is in progress and outcome will be
reported shortly.
info
2012-11-28 22:49:32

Dodam że jest to mocno eksploatowany zasób, na macierzy Hitachi USP 100 oraz EMC DMX 4 na oby otrzymuję powyższy komunikat, po chwili :

Successfully restored access to volume
4f1ec706-9b920554-dab9-00215e313558 (EMC_dudu)
following connectivity issues.
info
2012-11-28 22:50:01
tris1.amunet

W ESX mam ustawienia RounRobin. Wcześniej było fixed. Mam 4 wirtualki z czego:
a)Vm1 - 3 dyski po 1 TB Hitachi
b) Vm2 i Vm3 po 2 dyski 30 GB Hitachi
c) Vm4 - dysk 2TB macierz EMC
Czy nasuwa się komuś jakieś rozwiązanie?

Pozdrowienia!
Andrzej Zieliński

Andrzej Zieliński Administrator
Systemów
Informatycznych, Sp.
z.o.o

Temat: Esxi5 Lost access to volume

RoundRobin to nie to samo co Fixed.
Zacząłbym od sprawdzenia jakie ustawienie powinno być dla tych macierzy.
Nie podałeś ile jest hostów, może sobie dyski wyrywają przez nieprawidłowe ustawienie chociaż wtedy pewnie nie dało by się wcale pracować.

konto usunięte

Temat: Esxi5 Lost access to volume

Dzięki za odpowiedź,

Jeśli chodzi o hosty to jest ich 6 przypiętych do tego samego zasobu. W jaki sposób dyski mogą być źle ustawione i wyrywać sobie dostęp? Być może coś w tym jest. Pozdrowienia

Karol

Temat: Esxi5 Lost access to volume

Tak naprawdę nic nie wiemy co jest pomiędzy serwerem/serwerami a macierzą, jakie wersje softu po obu stronach...
Andrzej Zieliński

Andrzej Zieliński Administrator
Systemów
Informatycznych, Sp.
z.o.o

Temat: Esxi5 Lost access to volume

Po pierwsze co mogę doradzić to nieśmiertelne RTFM.

Po drugie szklana kula poszła do naprawy i nie nie wiem jaka masz wersje ESX...

Dla Hitachi gdybyś poszukał to znalazłbyś coś takiego:

For ESX 3.5 and earlier, Hitachi recommends using a fixed path policy for all of its storage systems. For ESX 4 and higher, Hitachi recommends using VMware’s round robin multipathing policy

Dla EMC musisz sobie sam poszukać - wcale nie musi być tak samo.

konto usunięte

Temat: Esxi5 Lost access to volume

Zacznij monitorować przełączniki i macierz i zobacz czy nie masz strat pakietów po drodze.

konto usunięte

Temat: Esxi5 Lost access to volume

Witam,

1)Wersja ESX 5.0 Enterprise. Oczywiście czytam manuale. Wiem że Round Robin to nie to samo co Fixed. Jednak wyczytałem na forum vmware że to może być problem, ponieważ macierz może sobie sama realizować multipatching. I czasami lepiej ustawić na Fixed - które co by nie mówić multipatchingu nie zapewnia.

Po zmianie teoretycznie problem trochę się zmniejszył mianowicie jest mniej tych komunikatów o utraconym połączeniu(jednak nie jestem pewien czy to nie z powodu zmniejszonego obciążenia).

Zasób macierzowy który mam podpięty do ESX 5.0 został mi wystawiony w formie 10 dysków po 300 GB, gdzie sobie je pospawałem w trzy dyski 1TB. Istnieje możliwość wystawienia jednego dużego zasobu które podpina się pod ESX - lecz podobno jest to gorsze rozwiązanie ponieważ jest mniej lunów - tak mi powiedzieli koledzy.

2) Obecnie dostaje komunikat na jednym z tych dziesięciu 300 gb dysków, co w moim mniemaniu sugeruje duże obciążenie.

Device
naa.60060e8004eb71000000eb710000004a
performance has deteriorated. I/O latency increased from
average value of 1767 microseconds to 38646
microseconds.
warning
2012-12-09 01:34:12

3) Jak mogę monitorować przełączniki i macierz? Nie zajmuję się tym i nie wiem. Mogę to sprawdzić za pośrednictwem ESX? Czy chodzi o oprogramowanie zewnętrzne do macierzy i switchy ?

Dzięki !

konto usunięte

Temat: Esxi5 Lost access to volume

ja to monitoruję OpManagerem ManageEngine v9 - takie dane od razu dostajesz od hosta lub przełącznika.

konto usunięte

Temat: Esxi5 Lost access to volume

polecam nagios'a i cacti

konto usunięte

Temat: Esxi5 Lost access to volume

Jeśli masz możliwość sprawdź listy HCL danej wersji vSphere jak się mają do posiadanego sprzętu.

konto usunięte

Temat: Esxi5 Lost access to volume

Dzięki za odpowiedzi, zastanawia mnie jeszcze (skoro błąd pojawia się w przypadku 2 macierzy) czy problem nie leży po stronie połączenia mianowicie jest to na serwerze typu NOD i można tam maksymalnie 2 ścieżki doprowadzić od serwera do switcha. Być może to jest wąskim gardłem ? Pozdrawiam

Ps. Tomaszu mam pytanie odnośnie nagios i cacti można to zaimplementować do darmowych ESX? Czy dzięki temu będę mógł sledzić obciążenie ścieżek do storage i oraz obciążenie storage ?Karol Sokalski edytował(a) ten post dnia 12.12.12 o godzinie 11:01

konto usunięte

Temat: Esxi5 Lost access to volume

Nawiąże jeszcze do tej listy HCL, jeśli w ESXi masz karty FC, FCoE, iSCSI które nie są wspierane przez używaną wersję ESXi to ścierzki jak najbardziej mogą i prawdopodobnie będą padać.

konto usunięte

Temat: Esxi5 Lost access to volume

Grzegorz, dzięki sprawdziłem i teoretycznie moje karty FC znajdują się na liście wspieranych. Pytanie czy istnieje możliwość, żeby tak zapchać dwie ścieżki żeby zrywało połączenie? Czy 2 scieżki do serwera to nie za mało?

Temat: Esxi5 Lost access to volume

Wydajnościowo pewnie wystarczy jedna.

Jak masz support na sprzęt to zgłaszaj to vendorowi.

Następna dyskusja:

Lost access to volume...




Wyślij zaproszenie do