Rafał Korszuń

Rafał Korszuń co-owner @ Kleder

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

Wiesiek Janek:
[...]
Dodatkowo zbiera adresy z odwiedzonych stron do późniejszego przeszukania.

Z tego wynika, że po linkach + robot powinien wiedzieć czy coś jest branżowe lub nie.

w sumie nie jest to aż tak trudne do zbudowania,
jednak:
- czynnik ludzki jako ośrodek kontroli zwiększy znacząco koszty użytkowania w zamian za poziom jakości
- istnieje spore ryzyko, że robot bez podpowiedzi nie będzie w stanie odwiedzić satysfakcjonującej liczby stron by odnaleźć coś co mogłoby być właściwym wynikiem wyszukiwania (inaczej penetracja mogłaby być znikoma, szczególnie w niektórych branżach gdzie istnieje multum stron www drobnych firm budowlanych niepododawanych do różnych katalogów, ale jak ktoś zna nazwę firmy to potrafi je znaleźć)
Maciej W.

Maciej W. a czy ty masz swój
ręcznik?...

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

hmm... to jest wykonalne, zastanawiałem się nad tym i tak:

można przecież zassać bazę adresów i parsować je pod danymi hasłami, zastanowić się nad warunkami koniecznymi aby dana strona była akceptowana przez robota na dane frazy kluczowe.
Drugim etapem będzie pisanie frazy w google i czytanie powiedzmy pierwszych 100 stron. Przy okazji jeśli na jakiejś stronie będą linki to można je zapisywać i później je odwiedzać...

a co z tego wyjdzie to się okaże po miesiącu - fakt faktem, że jeśli człowiek chce akceptować te strony to jest szansa, że będzie miał ich około 8000 na dzień...

konto usunięte

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

Prostym rozwiązaniem jest personalizacja google dla swojej strony, acz jej działanie zależy głównie od struktury strony... http://www.ergonomia.e-ar.pl/strony/szukaj.html

PS. To domorosłe rozwiązanie, proszę się nie pastwić :-D
Wiesiek J.

Wiesiek J. Właściciel, ERICA

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

Dysponuję bazą ponad milion adresów stron polskojęzycznych ;-)
Myślę że jako baza wyjściowa o wystarczy.
Poza tym można rozpoczynac od frazy w google na początek.

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

Moze czegos nie rozumiem, ale wydaje mi sie to nietrudne (napianie programu robota sieciowy, który zachowuje się tak jak to wyraził w swoim poście pan Wiesiek Janek). Co panowie dyskutanci tak jęczą?
Marcin Kopczyński

Marcin Kopczyński Po prostu szczęśliwy
człowiek :)

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

Marcin Stefaniak:
Moze czegos nie rozumiem, ale wydaje mi sie to nietrudne (napianie programu robota sieciowy, który zachowuje się tak jak to wyraził w swoim poście pan Wiesiek Janek). Co panowie dyskutanci tak jęczą?

Bo nie zastanawiają się nad wykonywalnością ale nad sensownością ;)

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

To jakoś kiepsko się zastanawiają - nikt na przykład nie zastanowił się nad kosztami łącza internetowego potrzebnego do takiej akcji, a to może być w tym wypadku kluczowe.

Powiedzmy, że chcemy pościągać 10 mld stron, każda średnio 100kB, to razem jest 1000TB. Nie potrzebujemy aż tak wiele storage'u, bo zapisujemy tylko strony które zawierają ciekawe dla nas słowa kluczowe, natomiast do zapisywania adresów odwiedzanych stron wystarczy około 1000GB = 1 większy dysk twardy.

Ale łącze? Jak mamy łącze 1Gb/s to transfer 1000TB zajmie przynajmniej 8M sekund, czyli 3 miesiące. Powiedzmy, że takie łącze nas kosztuje 10k/miesiąc, wtedy na samo łącze pójdzie 30k.
Rafał Korszuń

Rafał Korszuń co-owner @ Kleder

Temat: Robot - Wyszukiwarka - Ktoś napisze ?

Wszystkie twoje obliczenia się sprawdzają, pod warunkiem, że nie obsługujesz kompresji gzip.

Co do polskiego internetu wątpię, że tworząc wyniki na początku chciałbyś pociągnąć 10 mld stron, szczególnie jeżeli wyniki są tylko dla konkretnej branży, tak jak w założeniach (dla porównania zobacz ilość zindeksowanych stron w netsprincie, a to aplikacja nastawiona na indeksowanie polskich stron).

Jednak pozostaje jeszcze kwestia ponownego odwiedzania stron, która generuje dodatkowy ruch - i tu się zgodzę to będzie wymagało ustawienia odpowiednich czasów, aby dostawca wyszukiwarki po prostu nie splajtował.

Jeżeli czas ten będzie dłuższy niż miesiąc transfer powinien zamknąć się poniżej 13TB miesięcznie, zakładając że indeksujemy tylko polskie strony, czyli ściągamy wszystkie dostępne a zapisujemy tylko branżowe.



Wyślij zaproszenie do