Paweł W.

Paweł W. java developer at
https://rozwoj-oprog
ramowania.pl

Temat: java.net - pobranie wynikow wyszukiwania z google

witam,
mam serwis, ktory z kilku wyszukiwarek zwraca mi wyniki. chce teraz dostac sie do google i mam problem. wysylam tego typu zadanie:



HttpURLConnection urlConn;

String requestParameters = "";

URL url = new URL("http://www.google.pl/search");

urlConn =(HttpURLConnection)url.openConnection();

requestParameters = "hl=pl&q=" + URLEncoder.encode(imie, encodingType) + "+" +

URLEncoder.encode(nazwisko, encodingType) + "+" +

URLEncoder.encode(miejscowosc, encodingType) + "+" +

URLEncoder.encode(ulica, encodingType) + "+" +

URLEncoder.encode(nr_domu, encodingType) + "+" +

URLEncoder.encode(nr_mieszkania, encodingType) + "+" +

URLEncoder.encode(prefix, encodingType) + "+" +

URLEncoder.encode(panstwo, encodingType) +

"&btnG=Szukaj&lr=lang_pl";





i niestety zwracany jest blad:
ERROR [STDERR] IOException: Server returned HTTP response code: 501 for URL: http://google.pl/search

jesli ktos ma jakis pomysl, wskazowke bede wdzieczny

konto usunięte

Temat: java.net - pobranie wynikow wyszukiwania z google

na poczatek moznaby uzyc tej strony z ktorej chcesz wyciagnac dane ;)

mowi np. to: http://forums.sun.com/thread.jspa?messageID=9638519
Przemysław Rumik

Przemysław Rumik kodowanie to moja
specjalność ;-)

Temat: java.net - pobranie wynikow wyszukiwania z google

W TOS Google do niedawna był między innymi punkt 5.3:
5.3 You agree not to access (or attempt to access) any of the 
Services by any means other than through the interface that is
provided by Google, unless you have been specifically allowed to do so in a separate agreement with Google. You specifically agree not to access (or attempt to access) any of the Services through any
automated means (including use of scripts or web crawlers) and shall
ensure that you comply with the instructions set out in any robots.txt file present on the Services.


Teraz się trochę zmienił, ale nadal w pliku http://www.google.pl/robots.txt masz taką linię:
Disallow: /search

IMHO oznacza to, że każde automatyczne odwołanie do http://google.pl/search jest niezgodne z ich Terms Of Service i mogą banować.
Zresztą kiedyś mi się nawet pojawiło info, że zapytanie wygląda im na generowane automatycznie gdy zadałem proste pytanie z przeglądarki i bardzo szybko przejrzałem 5 albo 6 stron.Przemysław Rumik edytował(a) ten post dnia 17.09.08 o godzinie 19:22



Wyślij zaproszenie do