Marcin Jakubczak

Marcin Jakubczak Administrator
systemów i sieci

Temat: Problem

Witam

Mam kolejny mały acz kolwiek ciekawy problem. Nagios informuje mnie o tym, że dane urządzenie nie odpowiada na ping, ale jak sam pinguje tą maszyne to przechodzi bez problemu.
Co może być tego przyczyną ponieważ Nagios wyświetla mi taką informację z 2 urządzeniami.

konto usunięte

Temat: Problem

Podstawa debugowania problemów z nagiosem: jak nie działa coś co w teorii powinno a z komunikato w nagiosie niewiele wynika, to na serwerze z nagiosem, jako użytkownik z którego nagios wykonuje checki uruchom polecenie używane do sprawdzenia z parametrami takimi z jakimi robi to nagios. Czyli coś w deseń:

sudo -u www-data /usr/lib/nagios/check_ping -t 10 192.168.1.10
Marcin Jakubczak

Marcin Jakubczak Administrator
systemów i sieci

Temat: Problem

Zrobiłem tak jak piszesz i niestety nie jest to o co mi chodzi.

Problem leży w tym, że chceck_ping z nagiosa danego urządzenie wskazuje na critical czyli nagios go nie widzi. A jak spinguje daną maszyne z cmdka to ping dochodzi bez żadnego problemu.

Poprostu wynika z tego, że nagios przywiesił mi sie na 2 maszynach. Po reloadzie i restarcie nagiosa dzieje się to samo i nie wiem gdzie może leżeć problem

konto usunięte

Temat: Problem

Marcin Jakubczak:
Zrobiłem tak jak piszesz i niestety nie jest to o co mi chodzi.

Pisałem że od tego trzeba zacząć ustalanie źródła problemu, a nie że to go rozwiąże.
Problem leży w tym, że chceck_ping z nagiosa danego urządzenie wskazuje na critical czyli nagios go nie widzi. A jak spinguje daną maszyne z cmdka to ping dochodzi bez żadnego problemu.

Cały czas jest critical czy tylko czasem?
Jak cały czas to może po prostu masz literówkę w adresie IP? np. przecinek zamiast kropki
Jak czasowo to może masz chwilowe problemy z siecią albo tymi urządzeniami, o których do tej pory nie wiedziałeś.
Poprostu wynika z tego, że nagios przywiesił mi sie na 2 maszynach. Po reloadzie i restarcie nagiosa dzieje się to samo i nie wiem gdzie może leżeć problem

Skoro po restarcie jest to samo to skąd wniosek, że "nagios się przywiesił" ?
Marcin Jakubczak

Marcin Jakubczak Administrator
systemów i sieci

Temat: Problem

Literówki nie ma bo do tej pory wszystko działało poprawnie, dopiero od jakiegoś tygodnia nagios pokazuje crita.

Z siecią nie wiem jaki może być problem jak server wraz z przełącznikiem działają poprawnie, tylko sam nagios mówi, że nie działa.

konto usunięte

Temat: Problem

A może wyłączyłeś (Ty lub ktoś kto ma dostęp do www) active check w momencie gdy ostatni stan był critical (lub ktoś puścił passive). Wejdź na tą usługę i zobacz czy active masz załączone.
Marcin Jakubczak

Marcin Jakubczak Administrator
systemów i sieci

Temat: Problem

Active jest włączony, wyłączyłem go i ponownie odpaliłem i dalej status host jest downi Status Information: PING CRITICAL - Packet loss = 100%. A recznie ping przechodzi.

Temat: Problem

pewnie check_ping tez przechodzi, ale stan urzadzania ci pokazuje ze jest down, pokaz no konfiguracje tych 2 hostow albo porownaj z innymi czy jest identiko bo cos mi sie wydaje ze check_host_alive w tych przypadkach przy definicji default service masz wylaczony.
Marcin Jakubczak

Marcin Jakubczak Administrator
systemów i sieci

Temat: Problem

Host, który jest DOWN należy do grupy, w której są skonfigurowane identycznie inne maszyny. Wszystkie działają miodowo tylko ta jedna niestety na stronce wyświetla się jakby nie działała.
Czyli check_host_alive jest dobrze skonfigurowany. Niestety nie mam już pomysłów, próbowałem również wpisać tego nieszczęsnego hosta do innego .cfg i niestety jest to samo, spróbuje jeszcze zmienić mu grupę, ale coś czuję że to też nic nie zmieni :(
Macie jeszcze jakieś pomysły ?

konto usunięte

Temat: Problem

Nic nie poradzimy dopóki nie wkleisz tu:
- konfiguracji hosta + template z których korzysta,
- opisu usługi odpowiedzialnej z 'pingowanie', jeśli wywołujesz polecenie dla całej grupy to pokaż też,
- dla pewności możesz dodać też "command"

Napisz jeszcze dokładnie jaki masz komunikat. Critical możesz mieć zamieniany ze statusu UNKNOWN jeśli masz włączoną translację. Napisz dokładną treść komunikatu.
Marcin Jakubczak

Marcin Jakubczak Administrator
systemów i sieci

Temat: Problem

Jak na razie chciałbym zawiesić problem.
Wychodzi na to, że jest chyba jakiś ogólny problem z siecią, więc nie zawracam na razie głowy.

Dziękuję za wszelką pomoc :D
Michał Panasiewicz

Michał Panasiewicz Administrator
systemów, sieci i
aplikacji.

Temat: Problem

timeout-y: wtyczki i w nagiosie posprawdzaj

Następna dyskusja:

Nagios - Problem z cgi




Wyślij zaproszenie do