Wojciech Ogórek

Wojciech Ogórek Starszy Architekt IT

Temat: zmienic RAID na Serwerze bez utraty danych?

Krzysztof Pułapa:
Wojciech Ogórek:
dysku, ale jeżeli przed tym dysk zacznie "głupieć logicznie" i przekłamywać np: parzystość w RAID5 to serwer nie ma innego wyjścia, niż "delikatnie" zasygnalizować adminowi ten problem, idąc w dół.

Delikatnie ? :) Niespodziewany reboot to chyba "prawie najgorsza" kara dla admina ... bardziej gorsze jest już chyba niespodziewane "niewstanie" systemu :)

Dlatego napisałem "delikatnie" a nie delikatnie ;)
A gorsza od rebootu czy nawet niewstania serwera , jest sieczka na dyskach i utrata tego co na nich mamy.

konto usunięte

Temat: zmienic RAID na Serwerze bez utraty danych?

Wojciech Ogórek:
A gorsza od rebootu czy nawet niewstania serwera , jest sieczka na dyskach i utrata tego co na nich mamy.

Aaa, ale to już cecha drogich systemów operacyjnych ... na szczęście Linux jest "darmowy".
Jakub Głębicki

Jakub Głębicki Ekspert ds.
Bezpieczeństwa IT,
AXA Ubezpieczenia
TUiR

Temat: zmienic RAID na Serwerze bez utraty danych?

Wojciech Ogórek:
A gorsza od rebootu czy nawet niewstania serwera , jest sieczka na dyskach i utrata tego co na nich mamy.

Nieee, od tego to się ma tasiemki. Najgorsze to jak się kawa skończy ;)

konto usunięte

Temat: zmienic RAID na Serwerze bez utraty danych?

Wojciech Ogórek:
Marcin Bojko:
Akurat DL385g2 może supportować online migration.
A co do wyłączania serwera po padzie dysku - jest to pierwszy przypadek o którym słyszę, wkładam go jednak między miejskie plotki ;)

A ja mogę sobie wyobrazić taką sytuację.
Ogólnie serwer robi reboot kiedy wykryje potencjalne zagrożenie integralności danych. Dane i ich spójność jest dla niego ważniejsza niż zachowanie ciągłego działania.
Możliwe więc, ze serwer ( a w zasadzie OS ) wykrył coś bardzo niepokojącego, uruchomił "panic routine" żeby chronić dane , a już post factum wyszło , że było to związane ze zdychającym dyskiem.

To taka trochę "gdybologia" , ale spotkałem się z kilkoma bardzo podobnymi przypadkami. RAID chroni przed padem fizycznym dysku, ale jeżeli przed tym dysk zacznie "głupieć logicznie" i przekłamywać np: parzystość w RAID5 to serwer nie ma innego wyjścia, niż "delikatnie" zasygnalizować adminowi ten problem, idąc w dół.
Jeżeli odnosisz się do ASR - akurat w tym modelu, to on nie działa tak jak mówisz. ASR zadziała w przypadku gdy watchdog i jego softwareowy reseter się zawieszą lub w przypadku przekroczenia temperatury następuje 'thermal shutdown'.

System nie ma pojęcia o ilości dysków i poziomie hardware'u kontrolera - po to własnie wymyślono idęę wolumenów logicznych macierzy widocznych jako jeden hw dysk dla OS.

Wiem że są rzeczy o których nie śniło się filizofom i informatykom, ale cóż, obstanę chwilowo przy swoim - padający serwer przy wypadzie dysku jest raczej wynikiem uszkodzonego backplane/mobo/power supply backplane niż regułą dotyczącą komunikacji serwera z OS.
A co do kary za 'delikatny' shutdown - prawie zawsze shutdown w przypadku kontrolera z BBWC/pamięcią write cache/ źle się kończy dla dysków, jak nie zdąży wyflushować.
Anyway - teoretyzujemy ;)

@Jakub - to u was kawa jest na tasiemkach? WooW!Marcin Bojko edytował(a) ten post dnia 05.08.10 o godzinie 07:46
Wojciech Ogórek

Wojciech Ogórek Starszy Architekt IT

Temat: zmienic RAID na Serwerze bez utraty danych?

Jakub Głębicki:
Wojciech Ogórek:
A gorsza od rebootu czy nawet niewstania serwera , jest sieczka na dyskach i utrata tego co na nich mamy.

Nieee, od tego to się ma tasiemki. Najgorsze to jak się kawa skończy ;)

1. Wgranie backupu z taśmy trwa dłużej , niż reboot serwera.

2. Przy taśmach mamy zwykle kopię danych sprzed kilku , kilkunastu godzin. Po rebocie serwera mamy na nim sytuację taka była przed i możemy reagować. Po naprawieniu problemu , ruszamy dalej bez cofania się o kilkanaście godzin.

3. Jeżeli serwer pójdzie w dół z powodu wykrycia jakiś problemów , to po jego uruchomieniu mamy masę informacji co się stało ( "crash dumpy" , "panic stringi" itd...) możemy zbadać co jest źródłem kłopotu. Jeżeli odtwarzamy się z taśmy to po pierwsze nie mamy żadnych danych o tym jak/kiedy i dlaczego rozpoczął się proces "rozkładu" naszych danych , po drugie nie mamy żadnej pewności, że to się nie powtórzy.

4. Koniec kawy/herbaty to jest totalny kataklizm. Tu się zgadzam w 100% ;)

I jeszcze w odpowiedzi do posta Marcina:
Marcin Bojko:
Jeżeli odnosisz się do ASR - akurat w tym modelu, to on nie działa tak jak mówisz. ASR zadziała w przypadku gdy watchdog i jego softwareowy reseter się zawieszą lub w przypadku przekroczenia temperatury następuje 'thermal shutdown'.

Nie odnoszę się do ASR, bo nie wiem co to jest :D
Kojarzy mi się RAS ale to chyba nie to...

Bazowałem na tym co wiem o serwerach SUNa (Sparcowych) + Solaris , bo z takimi miałem najwięcej do czynienia.
Ale że zajmowałem się tym jakiś czas temu + to nie była moja główna specjalizacja, więc dyskusji większej się nie podejmuję bo dam plamę ;)
System nie ma pojęcia o ilości dysków i poziomie hardware'u kontrolera - po to własnie wymyślono idęę wolumenów logicznych macierzy widocznych jako jeden hw dysk dla OS.

System widzi symptom i na niego reaguje, nawet jeżeli samo źródło jest dla niego niewidoczne.
Konkretny przykład:
Serwer ( V880 Sunowski + Solaris )w tzw "panic loopie" - czyli ciągle się resetuje.
Panic string - "Freeing free block" - system próbował zwolnić jakiś blok danych na FSie i odkrył że tam już nic nie ma. Stwierdził, że stan rzeczywisty nie odpowiada temu co on widzi, więc aby uniknąć dalszemu uszkadzaniu FSa robi reboot ( z którego potem nie umie wyjść ).

Rozwiązanie - załadowanie systemu do Single User Mode ( wchodzi ) i zrobienie fsck na kłopotliwym file systemie. Potem standardowe sprawdzenie systemu i bingo , duża ilość hard i soft błędów na jednym z dysków w RAIDie z którego wystawiony był dany LUN ( to był bodajże dysk wewnętrzny , ale już nie pamiętam czy na pewno ).

Konkluzja - System reagował na błędy FSa , mimo iż źródło było dla niego niewidoczne ( dysk w strukturze RAID )
Wiem że są rzeczy o których nie śniło się filizofom i informatykom, ale cóż, obstanę chwilowo przy swoim - padający serwer przy wypadzie dysku jest raczej wynikiem uszkodzonego backplane/mobo/power supply backplane niż regułą dotyczącą komunikacji serwera z OS.
A co do kary za 'delikatny' shutdown - prawie zawsze shutdown w przypadku kontrolera z BBWC/pamięcią write cache/ źle się kończy dla dysków, jak nie zdąży wyflushować.
Anyway - teoretyzujemy ;)


Jasne :D
Padający dysk w 99,99% powoduje potrzebę wymiany dysku twardego bez żadnych fajerwerków w stylu rebootu serwera czy rozwalenia całego RAIDa.
Ja od początku trochę teoretyzowałem ;) ( choć nie znaczy to, że nie widziałem kilku podobnych spraw "na żywo")Wojciech Ogórek edytował(a) ten post dnia 05.08.10 o godzinie 21:08

konto usunięte

Temat: zmienic RAID na Serwerze bez utraty danych?

ASR=Automatic System Recovery (HP) - zestaw sensorów+watchdog, reaguje np. na BSOD/Kernel panic - brak reakcji systemu powoduje np. reboot lub reboot do diagnostyki. Miła rzecz a czasem oszczędza wycieczki na drugi koniec miasta/kontynentu.

Co do SUN/Solaris - tu ja się nie wypowiadam, mam jeden pod opieką ale staram się nie dotykać. W razie pożaru pewnie przeturlam w bezpiecznie miejsce i tyle ;)

Ja musiałem trafiac na te 99.99% bo jako żywo nie pamiętam przypadku....:P

Pamiętam jeden - jak admin w pewnej instytucji tax collecting postanowił przepchnąć HP LhPro o jakieś 4-5 metrów dalej.... na żywca z pracującym systemem.
Przepchnął o 2 metry ... luzik ... posapał... przepchnął o 2 metry ... posapał... przepchnął o 0,5 metra, trafił na dziurę w podłodze serwer podskoczył, dyski przeskoczyły z wesołych zielonych na mniej wesołe amber ... zamigotały i dup...
Admin wykonał admin panic .... i zadzwonił :P
Michał Ł.

Michał Ł. Doświadczenie jest
czymś, co zdobywasz
wtedy, gdy
przesta...

Temat: zmienic RAID na Serwerze bez utraty danych?

Czy admin panic jest zarządzalny z HP SIM?

Michał

konto usunięte

Temat: zmienic RAID na Serwerze bez utraty danych?

Admin panic polegał na telefonie do mnie i szlochaniu w słuchawkę.. Nie próbowałem tego podpinac do HP SIM ;)

Następna dyskusja:

Jak najlatwiej zmienic dysk...




Wyślij zaproszenie do