Kamil Bęczyński R, SAS, analizy
Temat: Web scraping pod R
Cyklicznie ściągam informacje z niektórych stron internetowych (nie wymagających logowania), ostatnio mam szczęście i wszystko działa należycie. Jednak ciekawi mnie w jaki sposób i na jakiej podstawie strona internetowa może mnie zablokować ? Zdarzało wam się to ? Czy strona wie, że łączę się poprzez R - wydaje mi się, że widzi to jako połączenie z przeglądarki (pokazywaną nazwę przeglądarki można nawet zmieniać z tego co widziałem) ? Na wszelki wypadek używam Sys.sleep(jakaś liczba losowa np. 5*runif()) pomiędzy wywołaniami poszczególnych podstron danej strony internetowej, ale przecież i tak nie klikam na żaden buttona na stronie by przejść na kolejną podstronę, więc czy nie wydaje się to być podejrzane. Czy technologia wykonania strony ma znaczenie dla web scraping'u w R ?Pozdrawiam
ps. zazwyczaj używam pakietu XLM i to mi wystarcza do prostych zapytańTen post został edytowany przez Autora dnia 13.01.14 o godzinie 21:00