Tomasz W. boss, advertise it
konto usunięte
Temat: curl
Nie da się.Jedyna możliwość to sprawdzanie np. ciastek (cookies) za pomocą JS, bo curl działa jak przeglądarka z tym, że nie emuluje JS.
Możesz też zablokować user-agent najpopularniejszych ściągaczy stron, np:
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus
RewriteRule ^.* - [F,L]
konto usunięte
Temat: curl
Sebastian Zaborowski:
Nie da się.
Jedyna możliwość to sprawdzanie np. ciastek (cookies) za pomocą JS, bo curl działa jak przeglądarka z tym, że nie emuluje JS.
Ot.. właśnie.
Sebastian Zaborowski:
...
Możesz też zablokować user-agent najpopularniejszych ściągaczy stron, np:
Tych "ściągaczy" jest pełno a Ci "najgroźniejsi" nie przedstawiają się w UA aż tak oficjalnie.
Niestety trzeba analizować logi serwera ręcznie odnajdywać IP / UA i je blokować - to jedyna w miarę skuteczna metoda.
Wojciech
K.
realizator pomysłów
własnych
Temat: curl
Sebastian Zaborowski:
Jedyna możliwość to sprawdzanie np. ciastek (cookies) za pomocą JS, bo curl działa jak przeglądarka z tym, że nie emuluje JS.
... chyba, że ktoś sobie sparsuje odpowiedź, pod kątem stosownych JSowych poleceń ;)
można jeszcze próbować z blokowaniem danego IP automatycznie po zbyt dużej liczbie requestów - ale to chyba prościej na poziomie PHPa.
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
można też tu dopisać cURLa samego w sobie - ja w logach czasem widzę user-agenta "curl ...."
konto usunięte
Temat: curl
Wojciech K.:
Sebastian Zaborowski:
Jedyna możliwość to sprawdzanie np. ciastek (cookies) za pomocą JS, bo curl działa jak przeglądarka z tym, że nie emuluje JS.
... chyba, że ktoś sobie sparsuje odpowiedź, pod kątem stosownych JSowych poleceń ;)
można jeszcze próbować z blokowaniem danego IP automatycznie po zbyt dużej liczbie requestów - ale to chyba prościej na poziomie PHPa.
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
można też tu dopisać cURLa samego w sobie - ja w logach czasem widzę user-agenta "curl ...."
Latwiej jest blokowac na poziomie serwera niz aplikacji - sa narzedzia do tego. Co do blokowania CURL - nie fizycznej mozliwosci wykrycia czy zadanie to dobrze sformatowany CURL czy przegladarka, bo oba wysylaja takie same zadania.
konto usunięte
Temat: curl
Można próbować liczyć czas kliknięć/wykonywania danych operacji na stronie - w cURL najczęściej klepie sie wszystko na szybko - robot wchodzi -> loguje się -> coś robi -> koniec (w bardzo krótkim czasie).Choć i tutaj można obejść ten problem (w cURL), a można i czasem zablokować normalnych użytkowników, więc najlepiej odpuścić sobie takie zabawy.
konto usunięte
Temat: curl
W curlu też możesz wykorzystać kilka interfejsów (jeśli masz dostępne) - CURLOPT_INTERFACE. Dodatkowo można robić przerwy i, jeśli nasz crawler ściąga dane w kilku serwerów, ściągać naprzemiennie z każdego z nich. Wydaje się więc, że nie jest tak łatwo zrobić blokowanie, które to wykryje. Oczywiście można dać 10 zapytań i szlus na godzinę, ale to może zablokować też zwykłych użytkowników.Podobne tematy
-
PHP » curl na lokalnym serwerze -
-
PHP » cURL nie oczekiwaną zawartość -
-
PHP » [cURL] Pobieranie plików - localhost a serwer -
-
PHP » cURL przelewy24 brak odpowiedzi -
-
PHP » Logowanie Zippyshare.com - cURL -
-
PHP » curl -
-
PHP » Php 5.3.x ubuntu... i błąd instalacji CURL -
-
PHP » php curl ftp download plików po dacie modyfikacji i po... -
-
PHP » skracanie tekstu pobranego za pomocą curl -
-
PHP » Problem z cURL -
Następna dyskusja: