konto usunięte

Temat: Roboty

Dominika M S.:
to co wstawiłam ...

Niezależnie od tego o czym teraz piszemy musisz najpierw mieć rozwiązanie w postaci narzędzia.

O ile nie masz innych możliwości zacznij od blokowania w sposób jaki wyżej podano - czyli robiąc wpisy do .hta blokujące odpowiednie UA.

Jak to przestanie wystarczać pomyślimy co dalej.

P.S.

Nie podawałaś adresu www czy po prostu nie zauważyłem ?

konto usunięte

Temat: Roboty

Dominika M S.:
...
Jednak znalazłam to ma kilka tysięcy linijek tylko z tego miesiąca ale przyznaję nie wiem na co zwrócić szczegolną uwagę...

Super !

Powiem, że "robot" nie czyta CSS ani nie czyta JS. Zatem zachowaniem charakterystycznym dla robota będzie GET /adres i po nim BRAK odpytywania o CSS i JS ;)

Tak więc nawet jeśli w UA zobaczysz, że jest to MOZILLA ale nie czyta CSS i JS, nie czyta obrazków (!) to... blokuj IP ;)

Tak naprawdę powinno się blokować całą klasę ale... ale to już inna bajka.

[edyta]
Dla przykładu:

175.44.10.176 - - [11/Aug/2012:10:39:12 +0200] "GET /forum/ HTTP/1.1" 200 4788 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:15 +0200] "GET /forum/index.php?action=profile HTTP/1.1" 200 3322 "http://www.killzone2.pl/forum/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:18 +0200] "GET /forum/ HTTP/1.1" 200 4788 "http://www.killzone2.pl/forum/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:18 +0200] "GET /forum/index.php?board=13.0 HTTP/1.1" 200 6553 "http://www.killzone2.pl/forum/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:22 +0200] "GET /forum/index.php?board=13.0 HTTP/1.1" 200 6553 "http://www.killzone2.pl/forum/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:25 +0200] "GET /forum/index.php?board=13.40 HTTP/1.1" 200 6802 "http://www.killzone2.pl/forum/index.php?board=13.0" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:30 +0200] "GET /forum/index.php?action=post;board=13.0 HTTP/1.1" 200 8034 "http://www.killzone2.pl/forum/index.php?board=13.40" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:37 +0200] "POST /forum/index.php?action=post2;start=0;board=13 HTTP/1.1" 302 26 "http://www.killzone2.pl/forum/index.php?action=post;board=13.0" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:39 +0200] "GET /forum/index.php?action=profile HTTP/1.1" 200 3323 "http://www.killzone2.pl/forum/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"
175.44.10.176 - - [11/Aug/2012:10:39:41 +0200] "GET /forum/index.php?action=profile;u=6468;sa=showPosts HTTP/1.1" 200 18134 "http://www.killzone2.pl/forum/index.php?action=profile" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;)"

ten UA to niby "Mozilla" ale dziwnym trafem przeczytał kolejno same HTML(php) "pomijając" css i js i obrazki)
Z zachowania wnioskuję, że to robot, który przyszedł się zalogować (zarejestrować) i założyć post z linkami.Robert B. edytował(a) ten post dnia 12.08.12 o godzinie 16:11

Temat: Roboty

Robert B.:
Dominika M S.:
...
Jednak znalazłam to ma kilka tysięcy linijek tylko z tego miesiąca ale przyznaję nie wiem na co zwrócić szczegolną uwagę...

Super !

Powiem, że "robot" nie czyta CSS ani nie czyta JS. Zatem zachowaniem charakterystycznym dla robota będzie GET /adres i po nim BRAK odpytywania o CSS i JS ;)

Tak więc nawet jeśli w UA zobaczysz, że jest to MOZILLA ale nie czyta CSS i JS to... blokuj IP ;)

Tak naprawdę powinno się blokować całą klasę ale... ale to już inna bajka.
co znaczy ze nie czyta css i js?

konto usunięte

Temat: Roboty

Dominika M S.:
...
co znaczy ze nie czyta css i js?

To znaczy, że nie pobiera plików CSS / JS / grafiki z Twojego serwera.

Cała strona składa się z wielu elementów.

Jest to:
- html / php (inne)
- css
- js
- obrazki

Jeśli strona czytana jest przez przeglądarkę to w logach serwera pojawia się zapytanie o ten adres a następnie pytania o kolejne elementy składowe strony. Są to właśnie elementy CSS, JS, obrazki...

Roboty nie czytają tych elementów - ich interesuje jedynie sam kod HTML (często wytworzony przez PHP) dlatego gdy w logach widać (jak na moim przykładzie), że w kolejnych zapytaniach pojawia się:
37.59.5.120 - - ... "GET /forum/ ...
37.59.5.120 - - ... "POST /forum/index.php?..." ...
37.59.5.120 - - ... "GET /forum/index.php?action=login2;sa=check;member=1686 ...

To znaczy, że jest to robot - niezależnie od tego jakie UA widać w logach (w poprzedniej wypowiedzi zostawiłem całe logi - tam wyraźnie widać, że robot udaje przeglądarkę podając się za Mizillę).

Normalnie powinno to wyglądać tak:
... "GET / - tu czyta stronę główną
... "GET /themes/B4-KZ2/styles.css - następnie czyta plik styli CSS
... "GET /css/lightbox.css - kolejny plik z CSS
... "GET /js/scriptaculous.js?load=effects,builder - tu odczytuje JS
... "GET /themes/B4-KZ2/images/header_sag.jpg - a tu czyta obrazek (element themes)

Celowo w drugim przykładzie wyciąłem wszystko zostawiając jedynie JS / CSS - aby pokazać Tobie różnicę w tym jak czyta robot a jak normalna przeglądarka.Robert B. edytował(a) ten post dnia 12.08.12 o godzinie 16:38

Temat: Roboty

czyli to co ma w logu link do obrazka strony tagu itd to nie robot dobrze rozumiem?

a coś takiego? 95.51.74.226 - - [11/Aug/2012:07:55:03 +0200] "GET /wp-content/themes/kippis/pix/kippis.ico HTTP/1.1" 200 996 "-" "Mozilla/5.0 (Windows NT 6.0; rv:14.0) Gecko/20100101 Firefox/14.0.1" swoja droga ma odnosnik do czegoś co wykasowałam
jeśli dobrze ogarniam to to także jest robot 95.49.84.90 - - [11/Aug/2012:11:26:28 +0200] "GET /crossdomain.xml HTTP/1.1" 404 6606 "http://s.nsdsvc.com/App/DddWrapper.swf?c=4" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1"
?

dodam, że oba te akurat ip mają po kilka tysięcy logów dziennie i głownie do obrazków, tagówDominika M S. edytował(a) ten post dnia 12.08.12 o godzinie 16:47

konto usunięte

Temat: Roboty

Dominika M S.:
czyli to co ma w logu link do obrazka strony tagu itd to nie robot dobrze rozumiem?

W prostym przełożeniu TAK i przyjmijmy to za prawdę ;)


a coś takiego? 95.51.74.226 - - [11/Aug/2012:07:55:03 +0200] "GET /wp-content/themes/kippis/pix/kippis.ico HTTP/1.1" 200 996 "-" "Mozilla/5.0 (Windows NT 6.0; rv:14.0) Gecko/20100101 Firefox/14.0.1" swoja droga ma odnosnik do czegoś co wykasowałam

To jest plik .ico (obrazek) ten, który w przeglądarce pojawia się przy adresie URL. [ciach]
jeśli dobrze ogarniam to to także jest robot 95.49.84.90 - - [11/Aug/2012:11:26:28 +0200] "GET /crossdomain.xml HTTP/1.1" 404 6606 "http://s.nsdsvc.com/App/DddWrapper.swf?c=4" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1"
?

Nie. To jest plik flash. To jest czytane przez przeglądarki - zazwyczaj roboty tego nie czytają ;)

Rozumowanie masz dobre ale wybrałaś przykłady, których nie opisałem (flash, ico) ;)

Nie szukaj tego co czytają a tego czego NIE czytają ;)

...
dodam, że oba te akurat ip mają po kilka tysięcy logów dziennie i głownie do obrazków, tagów

Być może to user, który uwielbia Twoją stronę.Robert B. edytował(a) ten post dnia 12.08.12 o godzinie 17:03

Temat: Roboty


Nie. To jest plik flash. To jest czytane przez przeglądarki - zazwyczaj roboty tego nie czytają ;)

Rozumowanie masz dobre ale wybrałaś przykłady, których nie opisałem (flash, ico) ;)

Nie szukaj tego co czytają a tego czego NIE czytają ;)
to się chyba zgubiłam :D
...
dodam, że oba te akurat ip mają po kilka tysięcy logów dziennie i głownie do obrazków, tagów

Być może to user, który uwielbia Twoją stronę.
dzień w dzień kilkanascie tysięcy logów z jednego ip? ;) nie sądzę :D ip tez sobie obadam, bo zdaje się są specjalne strony, gdzie takie spamerskie są podane :d

konto usunięte

Temat: Roboty

Dominika M S.:
...
to się chyba zgubiłam :D

Przeczytaj jeszcze raz na spokojnie - zrozumiesz ;)

Być może to user, który uwielbia Twoją stronę.
dzień w dzień kilkanascie tysięcy logów z jednego ip? ;) nie sądzę :D ip tez sobie obadam, bo zdaje się są specjalne strony, gdzie takie spamerskie są podane

http://whois.domaintools.com/95.49.84.90

Neostrada. Jednak tak tak duża liczba odwiedzin jest zastanawiająca. Trudno mi jednak jest coś więcej powiedzieć nie mając innych informacji.

Temat: Roboty

No cóż,wg logów to nie ma oznaczonych wejśc robotów... Ale nagła zmiana statystyk i statystyki robotów, które dałam na początku temu przeczą :D
Może roboty się wycwaniły. ech życie.
Pogrzebię w tych logach, podumam i za jakiś czas powiem co mi z tego wyszło.
Bardzo, bardzo dziękuję wszystkim za podpowiedzi :)

Następna dyskusja:

Praca vs odwalanie roboty..




Wyślij zaproszenie do