Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Wyciąganie danych z gumtree

W jaki sposób wyciągnąć dane z portalu gumtree.pl (z niego będzie chyba najłatwiej) - chodzi mi o ogłoszenia z katalogu http://warszawa.gumtree.pl/f-Nieruchomosci-dom-mieszka..., a konkretnie wystarczy ta zielona ramka, kiedyś widziałem na ten temat jakąś prezentację, ale nie pamiętam.

ps. czy można zrobić screenshota strony internetowej z poziomu R ?
Maciej B.

Maciej B. Doktorant

Temat: Wyciąganie danych z gumtree

Da się, jak wszystko w R. :)
Rozwiązanie wysłałem Ci na priv.

Temat: Wyciąganie danych z gumtree

Da się, bardzo prosto :)

Niestety, mam R 2.15 i nie mogłem zainstalować RCurl z repo (brak windowsowej wersji, tylko linuksowe), ale na szczęście znalazłem contrib http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib...
Dla podanego przez Ciebie adresu:

 > library(RCurl)
> library(XML)

> html <- getURL("adres strony www")
> xml <- htmlParse(html, asText=TRUE)
okazje <- xpathSApply(xml, "//div[@class=\"właściwa_nazwa_klasy\"]/a/text()")

> okazje[1:5]
[[1]]
SPRZEDAM MIESZKANIE MOKOTÓW-STEGNY 44m2 Cenna do neg. OKAZJA !!!

[[2]]
OKAZJA! BEZPOŚREDNIO - BIELANY - 4 POKOJE 85m2 - 499 tys.

[[3]]
Kawalerka,Tarchomin, zielona okolica, autobusem 15 min do metra.

[[4]]
sprzedam bezpośrednio mieszkanie na Ursynowie - Metro Imielin

[[5]]
74m2, 5 pokoi, po remoncie (2012) na granicy Wilanowa i Mokotowa


Dane wyciągniesz modyfikując odpowiednio ścieżkę XPath. Przyda się do tego jakiś kurs, np. z W3C http://www.w3schools.com/xpath/xpath_syntax.aspAdrian Olszewski edytował(a) ten post dnia 30.01.13 o godzinie 23:40
Maciej B.

Maciej B. Doktorant

Temat: Wyciąganie danych z gumtree

Tylko warto przeczytać regulamin:

http://gumtreehelp.com/pl/knowledgebase.php?article=120

a dokładnie:

Korzystanie z serwisu Gumtree. Warunkiem korzystania ze strony Gumtree jest Twoja zgoda na to, że nie będziesz:
(...)
- kopiować, modyfikować ani rozpowszechniać treści tworzonych przez inne osoby bez ich wyraźnej zgody;
- korzystać z jakiegokolwiek robota (spidera, scrapera itp.) lub innych zautomatyzowanych narzędzi, aby w jakimkolwiek celu uzyskać dostęp do strony Gumtree i gromadzić pochodzące z niej treści bez naszej wyraźnej pisemnej zgody;
(...)
- omijać podejmowanych przez nas środków ograniczających lub uniemożliwiających Ci korzystanie z serwisu Gumtree.

edit: od niedawna zostały wprowadzone takie zmiany.Maciej B. edytował(a) ten post dnia 30.01.13 o godzinie 22:50

Temat: Wyciąganie danych z gumtree

Zgadza się, dlatego podałeś rozwiązanie na priv ;) Każdy czyni to na swoją odpowiedzialność, zwłaszcza, jeśli nie zapoznał się z regulaminem, a zamierza to robić masowo (od kilku pobrań na miesiąc raczej nic złego się nie powinno stać). I to nie tylko w przypadku GumTree, ale chyba większości serwisów będących providerami danych i brokerami. Robi się to z kilku powodów, m.in masowe kopiowanie treści do agregatorów, znaczne wykorzystywanie ich łącza do budowania własnego biznesu no i ataki DOS. Zakładam jednak, że jeśli ktoś bierze się za takie "zapożyczanie", to poświęcił chwilę na rozeznanie sytuacji.

A przykład może się komuś przydać do parsowania stron www. Wiele serwisów pozwala na subskrypcję RSS, a wtedy - jak znalazł.

PS: ciekawy przykład: archiwum Allegro ;)
PS: usunąłem z przykładu pewne informacje.Adrian Olszewski edytował(a) ten post dnia 30.01.13 o godzinie 23:41
Maciej B.

Maciej B. Doktorant

Temat: Wyciąganie danych z gumtree

Ano, to racja do RSS jak znalazł :)
Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Wyciąganie danych z gumtree

Widzę, że temat jest wciągający, dlatego zadam jeszcze jedno pytanie związane z wyciąganiem danych pośrednio dotyczące R :

z czysto technicznego punktu widzenia, czy jest możliwe, by jakiś skrypt był w stanie był w stanie pobrać REGON ze strony :

http://www.stat.gov.pl/regon

oczywiście przy założeniu, że skrypt potrafiłby przeczytać CAPTCHA - takie informacje oczywiście dostarczałby użytkownik skryptu wstukując kolejno wyświetlające się kody ?
Maciej B.

Maciej B. Doktorant

Temat: Wyciąganie danych z gumtree

Uuu to byłoby chyba ciężkie. Chyba nie ma w R biblioteki do czytania obrazków (captcha). Bardzo możliwe, że mogłoby również blokować dostęp jak np. nauka-polska.

Do takich rzeczy R już się nie nadaje, można pokombinować coś z Pythonem i odpalać skrypty przez R.
Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Wyciąganie danych z gumtree

Nie chodzi o czytanie CAPTCHA przez program tylko użytkownika programu, tak, żeby nie musiał zbyt dużo klikać, tylko same CAPTCHA odczytywać :) Nie myślałem również żeby to w R zrobić :)

Rozumiem, że teoretycznie da się ten proces zautomatyzować - mam na myśli wklejenie REGON-u z listy, wpisanie CAPTCHa, jeśli byłby znany i pobranie danych.

Temat: Wyciąganie danych z gumtree

Taka luźna refleksja :)

Przeglądając różne fora i blogi stwierdziłem swego czasu, że największym problemem eRa jest to, że jest tak uniwersalny. Przez to ludzie zaczynają go używać do wszystkiego. A to nie jest "język uniwersalnego przeznaczenia", tylko pakiet do analiz statystycznych. Kiedyś ucieszyłem się, że z poziomu R mogę wszystko - od tworzenia okienek po eksplorację internetu. Potem na własnej skórze odczułem, że ta droga prowadzi w "mroczne rejony". Od tamtej pory nie piszę w R ani jednej linijki nie związanej ze statystyką bądź komunikacją z innymi systemami... "Logikę biznesową" piszę w .NET, do analiz zaprzęgam R.

Co do Twojego pytania, Kamilu, myślę, że gdyby obczaić ich webserwis, to dałoby się :) W końcu dowolna komunikacja internetowa to tylko przesyłanie odpowiednich bajtów.Adrian Olszewski edytował(a) ten post dnia 31.01.13 o godzinie 12:45

konto usunięte

Temat: Wyciąganie danych z gumtree

Hej,

Chciałbym troszkę odświeżyć temat ściągania danych - mianowicie nie mam za bardzo pomysłu czy jest możliwość otworzenia w R pliku o formacie "mst". Chciałbym na bieżąco ściągać te dane:

http://bossa.pl/notowania/metastock/

Czy macie jakieś pomysły ?? Swoją drogą może znacie inną stronkę, na której są umieszczone ceny zamknięcia wszystkich spółek GPW za darmo...i aktualizowane każdego dnia??

Dzięki za pomoc :)

konto usunięte

Temat: Wyciąganie danych z gumtree

Chciałbym troszkę odświeżyć temat ściągania danych - mianowicie nie mam za bardzo pomysłu czy jest
możliwość otworzenia w R pliku o formacie "mst".

Na oko wygląda, że .mst to CSV więc
dane<-read.csv("plik.mst",sep=",",header=fals)

konto usunięte

Temat: Wyciąganie danych z gumtree

No tak, dziękuję za pomoc. Zapomniałem napisać, że problem już dawno rozwiązany :)
Marcin Szewczyk

Marcin Szewczyk kontroler finansowy

Temat: Wyciąganie danych z gumtree

Adrian O.:
Co do Twojego pytania, Kamilu, myślę, że gdyby obczaić ich webserwis, to dałoby się :) W końcu dowolna komunikacja internetowa to tylko przesyłanie odpowiednich bajtów.

A mogę prosić o link do jakiegoś tutoriala nt. "obczajania" webserwisu? Albo haslo-klucz do googla

Następna dyskusja:

Wczytywanie danych z pliku ...




Wyślij zaproszenie do