Temat: Roboty

Od trzech prawie tygodni mam problem ze zmasowanym atakiem robotów... w sumie nie byłby to problem ale te śmieci zżerają mi trzy razy więcej transferu.
Nie mam zielonego pojęcia co to jest za syf i nie jestem pewna jak to sprawdzić ale ten shit chyba sobie postanowił zindeksować każdy link na stronie łącznie z linkami do każdego tagu, dnia, archiwum, posta, kategorii, zdjęcia...
Wpada sobie toto na sekundę (dosłownie) w dany link i pojawia się ich kilkadziesiąt na raz... Kiedyś widziałam raz taką akcję sprawdzoną na forum, które jakiś czas temu miałam i było to badoo czy coś takiego.
Taki zmasowany atak trwał tam od stycznia do połowy marca...
Nie jestem pewna czy same się wyniosły czy pomogła aktualka vbulletina wtedy.

czy to świństwo można jakoś "udrutować"? Albo chociaż na początek zbadać co to za g?
Jak się bronić?

Temat: Roboty

To sama widziałam, sposobów masa a każdy inny ;) Który polecasz?

Temat: Roboty

No dobrze, zaczęłam od identyfikacji tego co do mnie włazi poprzez logi serwera tak jak napisali w którymś linku
mam takie boty z sierpnia

Robots/Spiders visitors
33 different robots Hits Bandwidth Last visit
FaceBook bot 11785 553.12 MB 11 Aug 2012 - 03:35
Googlebot 11037+20 144.24 MB 11 Aug 2012 - 04:02
Unknown robot (identified by 'bot*') 5036+105 69.27 MB 11 Aug 2012 - 04:01
MSNBot 3392+29 41.89 MB 11 Aug 2012 - 03:19
WordPress 2832 787.16 KB 11 Aug 2012 - 04:00
Feedfetcher-Google 1349 47.75 MB 11 Aug 2012 - 03:33
Unknown robot (identified by empty user agent string) 1340 39.77 MB 11 Aug 2012 - 00:43
MSNBot-media 734+414 21.82 MB 11 Aug 2012 - 03:53
Unknown robot (identified by 'robot') 818+12 15.47 MB 11 Aug 2012 - 03:58
Mail.ru bot 425+2 24.52 MB 11 Aug 2012 - 02:46
Unknown robot (identified by '*bot') 98+126 5.95 MB 11 Aug 2012 - 03:08
Nutch 166+10 2.20 MB 10 Aug 2012 - 14:51
Yandex bot 146+15 2.04 MB 11 Aug 2012 - 03:18
Unknown robot (identified by 'crawl') 93+12 3.12 MB 11 Aug 2012 - 00:38
Yahoo Slurp 100+2 903.97 KB 10 Aug 2012 - 07:53
Unknown robot (identified by hit on 'robots.txt') 0+97 45.43 KB 10 Aug 2012 - 20:00
Web Core / Roots 63 1.01 MB 09 Aug 2012 - 20:35
SeznamBot 41+11 538.16 KB 10 Aug 2012 - 07:11
Java (Often spam bot) 23 1.42 MB 10 Aug 2012 - 23:15
CFNetwork 23 450.10 KB 05 Aug 2012 - 17:56
legs 14+4 182.58 KB 10 Aug 2012 - 11:40
lmspider 10+1 154.60 KB 07 Aug 2012 - 08:17
Powermarks 8 495.49 KB 08 Aug 2012 - 12:25
Alexa (IA Archiver) 3+3 209.30 KB 06 Aug 2012 - 05:33
FeedValidator 4 38.55 KB 10 Aug 2012 - 21:07
BaiDuSpider 1+3 15.15 KB 07 Aug 2012 - 12:28
Unknown robot (identified by 'spider') 1+1 63.32 KB 08 Aug 2012 - 12:36
StackRambler 2 24.46 KB 07 Aug 2012 - 11:14
Turn It In 1+1 14.33 KB 03 Aug 2012 - 10:16
Python-urllib 1 40.28 KB 01 Aug 2012 - 12:44
FavIconizer 1 13.64 KB 04 Aug 2012 - 13:44
WGet tools 1 39.59 KB 09 Aug 2012 - 03:32
W3C Validator 1 14.01 KB 06 Aug 2012 - 17:05

Co jest napewno do zablokowania? I co zrobić z tymi badziewiami, których serwer nie identyfikuje?
I co w rubryce hits oznacza np 3+3 ?bo to Bandwidth to jest to co mi zżerają?Dominika M S. edytował(a) ten post dnia 11.08.12 o godzinie 22:02
Patryk  Ciechanowski-Mir ek

Patryk
Ciechanowski-Mir
ek
Specjalista
SEO/SEM/PPC/Digital
marketing

Temat: Roboty

Trzeba było kupić hosting bez limitów transferu...

Z tego co widzę, są to roboty głównie wyszukiwarek - a z wyszukiwarkami się przecież lubimy...

Na nadmierne zużycie transferu polecam cloudflare.com (działa na zasadzie proxy, filtruje spam i zmniejsza zasobożerność ruchu) oraz wtyczkę w3 total cache (a dokładniej funkcję minify która zmniejszy objętość plików)

Temat: Roboty

Patryk C.:
Na nadmierne zużycie transferu polecam cloudflare.com (działa na zasadzie proxy, filtruje spam i zmniejsza zasobożerność ruchu) oraz wtyczkę w3 total cache (a dokładniej funkcję minify która zmniejszy objętość plików)
Wybacz, ale mogę prosić o ciut więcej informacji? Nie jestem najlepsza w angielskim :D
Patryk  Ciechanowski-Mir ek

Patryk
Ciechanowski-Mir
ek
Specjalista
SEO/SEM/PPC/Digital
marketing

Temat: Roboty

Cloudflare działa na tej samej zasadzie co serwer proxy, z tą różnicą, że "zwykłe" proxy znajduje się między całym internetem i użytkownikiem końcowym, a cloudflare znajduje się między serwerem a internetem.
W skrócie, wszelkie żądania przesłane do serwera trafiają do cloudflare. Oszczędza zasoby i przyśpiesza ładowanie stron, a jak strona nie działa to serwuje dane (np obrazki) ze swojej kopii zapasowej.

Takie przykładowe ze statystyk z ostatniego tygodnia z jednej z moich stron:
Zapytania przesłane do serwera:
41,132 total requests / wszystkich
20,631 requests saved by CloudFlare / 'oszczędzonych' które nie dotarły do serwera tylko zostały obsłużone przez cloudflare

Zużyty transfer
62.7 MB total bandwidth / całość
24.8 MB bandwidth saved by CloudFlare / 'oszczędzone'

Instalacja tego jest bardzo prosta - rejestrujesz się na stronie, dodajesz domene i zmieniasz adresy serwerów dns. (a resztę przetłumaczysz sobie przy pomocy google translate)

Co najfajniejsze, narzędzie można dostać w dwóch opcjach:
darmowa, czyli ta co nas interesuje
oraz płatna - 20$ za pierwsza i 5$ za każdą kolejną stronę
różnią się w zasadzie częstotliwością odświeżania statystyk.Patryk C. edytował(a) ten post dnia 11.08.12 o godzinie 22:29

Temat: Roboty

zmieniam dns? ale czy odświeżenie dns nie trwa przypadkiem do 48 godzin podczas których strona zniknie albo będzie zwyczajnym widmem ;)
Marek Przegaliński

Marek Przegaliński SEO/SEM Web Promocja
Bezpieczeństwo

Temat: Roboty

To jakaś kolejna akcja/post z tymi robotami., zatem.... - wejścia robotów generalnie i maksymalnie bezdyskusyjnie olewasz. Pytanie ma znikomą (0) rację bytu.
Jak widzisz w tym problem blokujesz wejścia wszystkie te które Ci nie pasują i po ptakach?
Jak to się robi? W pliku robots, pytanie w wyszukiwarce google - jak zablokować wizyty "takie i inne".

Pozdrawiam

PS. Wiemy, że nie szukasz pracy w ubezpieczeniach.
Patryk  Ciechanowski-Mir ek

Patryk
Ciechanowski-Mir
ek
Specjalista
SEO/SEM/PPC/Digital
marketing

Temat: Roboty

Dominika M S.:
zmieniam dns? ale czy odświeżenie dns nie trwa przypadkiem do 48 godzin podczas których strona zniknie albo będzie zwyczajnym widmem ;)

Nie, strona nie zniknie. bo zarówno stare jak i nowe dns'y kierują na tą samą treść i ma ten sam rekord A kierujący do tego samego serwera z plikami. Ot strona przez te 48h może się raz ładować normalnie i zjadać normalnie transfer, raz szybciej i oszczędniej.

ps. uprzedzam, to nie oszczędza 100% transferu, tylko ogranicza zużycie.

Temat: Roboty

Marek Przegaliński:
To jakaś kolejna akcja/post z tymi robotami., zatem.... -
nie kolejna, w poprzednim temacie pisalam odnosnie analytics, wtedy tylko gdybałam teraz mam pewność
wejścia robotów generalnie i maksymalnie bezdyskusyjnie olewasz.
Nie wtedy gdy mi zjadają większość transferu ;)
Pytanie ma znikomą (0) rację bytu.
??
Jak widzisz w tym problem blokujesz wejścia wszystkie te które Ci nie pasują i po ptakach?
Jak to się robi? W pliku robots, pytanie w wyszukiwarce google - jak zablokować wizyty "takie i inne".

http://itporady.pl/html-css/blokowanie-dostepu-robotom...
np tak?

Pozdrawiam

PS. Wiemy, że nie szukasz pracy w ubezpieczeniach.
ja sie nie czepiam Twojego opisu a mam prawo się bronić przed masowym spamem ofertowym na priv prawda? ;)
Paweł Knapek

Paweł Knapek freelancer, koder,
wordpressowiec

Temat: Roboty

Możesz skorzystać z pliku robots.txt - jednak boty go raczej zlewają (to info głównie dla wyszukiwarek).
Jezeli chcesz blokować, to bardziej na poziomie pliku .htaccess

tutaj masz przykład KLIK , tutaj dodatkowo kilka (ro)botów, które czasem warto zatrzymać KLIKPaweł Knapek edytował(a) ten post dnia 11.08.12 o godzinie 23:47

Temat: Roboty

A bardzo dziękuję :)

konto usunięte

Temat: Roboty

Kilka uwag.

- większość takich list zachodnich ma się nijak do naszych problemów (znajdują się tam roboty, których u nas nie "uwidzisz" a brakuje tych, które u nas grasują (głównie zza wschodniej granicy).
- najlepiej takie listy robić w oparciu o własne logi serwera
- zbyt długa lista w .hta potrafi nieźle opóźnić obsługę zapytania
- ...

Temat: Roboty

Robert B.:
Kilka uwag.

- większość takich list zachodnich ma się nijak do naszych problemów (znajdują się tam roboty, których u nas nie "uwidzisz" a brakuje tych, które u nas grasują (głównie zza wschodniej granicy).
- najlepiej takie listy robić w oparciu o własne logi serwera
- zbyt długa lista w .hta potrafi nieźle opóźnić obsługę zapytania
- ...
Jak widzisz w moich logach serwera sa tez boty nieidetyfikowalne ;) raczej sobie z nimi dużo nie zrobię
Paweł Knapek

Paweł Knapek freelancer, koder,
wordpressowiec

Temat: Roboty

Robert B.:
Kilka uwag.
>
Robercie, to jedynie przykład metody, nie traktuj go tak bardzo dosłownie.
Można też z użyciem RewriteCond.
Dominika ma listę UA pajączków ją odwiedzających, więc w pierwszej kolejności może jej użyć ....potem może sobie wybrać kilka najpopularniejszych z załączonych list i tyle.

Co do niezidentyfikowanych, można np. tłuc połączenia bez zdefiniowanego user-agenta, blokować można też po refererze czy ip. ...można też np. ubić wszystkie z *bot w UA z wyłączeniem googlebot, msnbot i bingbot.
Regułek nie musi być bardzo dużo, wystarczy że zostaną dobrze skonstruowane.

konto usunięte

Temat: Roboty

Dominika M S.:
...
Jak widzisz w moich logach serwera sa tez boty nieidetyfikowalne ;) raczej sobie z nimi dużo nie zrobię

Zrobisz.

To co pokazujesz oznacza, że Twoje statystyki nie rozpoznają botów. Nie oznacza to, że nie można ich rozpoznać - oznacza to, że statystyki ich nie rozpoznają.

Powtórzę zatem: zerknij do logów serwera (nie do statystyk).

Temat: Roboty

edit.
Jednak znalazłam to ma kilka tysięcy linijek tylko z tego miesiąca ale przyznaję nie wiem na co zwrócić szczegolną uwagę... mam masę powtarzających się po kilkaset razy ip. Tylko jak określić które są realne a które spamerskie?Dominika M S. edytował(a) ten post dnia 12.08.12 o godzinie 15:57

konto usunięte

Temat: Roboty

Paweł Knapek:
...
Dominika ma listę UA pajączków ją odwiedzających,

Nie, nie prawda. Dominika ma listę botów, które rozpoznane zostały przez statystyki więc jest to mocno ograniczona lista.

Problemem najczęściej są te boty, które nastawione są na kradzież treści. Są to boty pisane przez specjalistów (też takich jak ja) i nikt nie dba o nic innego jak tylko o to by pobrać dane. Roboty te nie czytają robots.txt i często mają zmienne UA - często udają przeglądarki.

Oczywiście są okresowe problemy choćby Yahoo czy Yandex czy MSN ale tym botom wystarczy dać zapis do robots.txt i już.

Prawdziwy problem jest z botami, które nie są rozpoznawane przez statystyki i nawet ich zbytnio w statystykach nie widać.

Paweł Knapek:
...
Co do niezidentyfikowanych, można np. tłuc połączenia bez zdefiniowanego user-agenta, blokować można też po refererze czy ip.

O to właśnie chodzi - o analizę logów i blokowanie tego co potrzeba.

Paweł Knapek:
...można też np. ubić wszystkie z *bot w UA z wyłączeniem googlebot, msnbot i bingbot.

To jest najgorsze co można zrobić.

Paweł Knapek:
...
Regułek nie musi być bardzo dużo, wystarczy że zostaną dobrze skonstruowane.

Nie prawda !
Lista botów jest bardzo duża i się wydłuża...Robert B. edytował(a) ten post dnia 12.08.12 o godzinie 16:09

konto usunięte

Temat: Roboty

Dominika M S.:
to co wstawiłam ma nagłówek logi serwera, najwyraźniej nie mam dostępu do niczego więcej.

To co wstawiłaś tutaj: http://www.goldenline.pl/forum/3002142/roboty/s/1#5087...

To analiza logów serwera a nie logi serwera.

Następna dyskusja:

Praca vs odwalanie roboty..




Wyślij zaproszenie do