Piotr Nowicki

Piotr Nowicki JFB Systems,
właściciel

Temat: zczytywanie zawartości strony www

Jaki jest najprostszy sposób na screen scraping w Javie?Piotr Nowicki edytował(a) ten post dnia 28.04.10 o godzinie 16:26

konto usunięte

Temat: zczytywanie zawartości strony www

Podrapać nożyczkami monitor mając odpaloną JVM?

A na serio:
na początek może

Robot.createScreenCapture()

Ci pomoże.
Piotr Nowicki

Piotr Nowicki JFB Systems,
właściciel

Temat: zczytywanie zawartości strony www

Sprecyzuje pytanie: jak pobrać tworzoną dynamicznie zawartość tekstową strony www np do pliku?

konto usunięte

Temat: zczytywanie zawartości strony www

Najprostszy jaki mi przychodzi do głowy to przy pomocy klasy:

java.net.URL

pzdr
Piotr Nowicki

Piotr Nowicki JFB Systems,
właściciel

Temat: zczytywanie zawartości strony www


final URL url = new URL("http://jakisurl");
final URLConnection urlConnection = url.openConnection();
final BufferedReader in = new BufferedReader(new InputStreamReader(
urlConnection.getInputStream()));
String inputLine;

while ((inputLine = in.readLine()) != null) {
System.out.println(inputLine);
}
in.close();


próbowałem tak, ale dostaje tylko źródło strony. Jak dobrać się do tekstu generowanego przez AJAX?Piotr Nowicki edytował(a) ten post dnia 28.04.10 o godzinie 20:35
Łukasz Krzysiak

Łukasz Krzysiak programista, o2.pl

Temat: zczytywanie zawartości strony www

W przypadku dynaminicznie ładowanych treści masz 2 opcje.

1. Łączyć się nie z adresem strony głównej tylko z adresem, z którego pobierane są dane za pomocą AJAXa. Zarówno adres jak i przekazywane paramerty podejrzeć możesz używając Firebuga.

2. Użyć jakieś biblioteki która symuluje przeglądarkę www, czyli pobiera stronę i wykonuje JS. Niestety nie wiem czy są takie darmowe narzędzie dla Javy.

konto usunięte

Temat: zczytywanie zawartości strony www

Łukasz Krzysiak:
2. Użyć jakieś biblioteki która symuluje przeglądarkę www, czyli pobiera stronę i wykonuje JS. Niestety nie wiem czy są takie darmowe narzędzie dla Javy.

Można poniższego spróbować :

HttpClient

pzdrPaweł Włodarski edytował(a) ten post dnia 28.04.10 o godzinie 23:13

Następna dyskusja:

KOORDYNATOR PRAC NAD PORTAL...




Wyślij zaproszenie do