konto usunięte

Temat: Solr + Nutch - mapowanie kilku domen na jedną

Witam, nie jestem do końca przekonany czy we właściwej grupie umieszczam ten wątek, ale w końcu Solr i Nutch to java w pełnej krasie :)

Ostatnimi czasy bardzo intensywnie grzebię w tandemie solr + nutch, które mają zastąpić przestarzałego htdig'a. W związku z tym mam prośbę o podpowiedź, naprowadzenie czy pomoc.

Otóż wspomniany htdig pozwalał w łatwy sposób ustawić mapowanie kilku domen na jedną. Konkretnie chodzi o domeny związane z UG (mój pracodawca :P). Jeszcze niedawno głównym adresem było univ.gda.pl, teraz jest to ug.edu.pl, a dodatkowo istnieje jeszcze zewnętrzna domena jednego z wydziałów: wzr.pl = wzr.univ.gda.pl = wzr.ug.edu.pl. Wszystkie strony działają poprawnie i wersje domen są poprawne, ale najwłaściwsza to ta z ug.edu.pl.

Chodzi o to, żeby Nutch i Solr wiedziały, że mieląc adres univ.gda.pl czy ug.edu.pl, mają doczynienia z jedną treścią. Coś w rodzaju duplicate content, którego nie chcę likwidować!!!

Czy istnieje jakiś patch albo wbudowany mechanizm pozwalający wykonac tego rodzaju mapowanie w solr i nutch? Chcę uniknąć sytuacji w której w wynikach wyszukiwania pokazują się te same podstrony, z róznymi domenami, np. http:/www.ug.edu.pl/sklad oraz http://www.univ.gda.pl/sklad. Oba linki działają, ale ten pierwszy jest istotny z punktu widzenia ważności domeny. Chodzi też o to, żeby indeks nie traktował tych samych adresów jako oddzielne.

Niestety nie ma możliwości przekierowania na sztywno całej domeny univ.gda.pl na ug.edu.pl, bo nie wszystko działa tak samo pod oboma adresami. W większości wypadków tak jest, ale jak to często bywa są wyjątki od reguły. Są też stare pliki doc, rtf, pdf, html itp, które mają w treści zaszyte stare linki (z univ.gda.pl) i są indeksowane przez crawler nutch.

Mam nadzieję, że zbytnio nie namieszałem wyjaśniając problem.

Z góry dzięki za pomoc.

Pzdr.
Seba

konto usunięte

Temat: Solr + Nutch - mapowanie kilku domen na jedną

Rozwiązaniem okazał sie moduł "normalize" w etapie parsowania przez Nutch.

/nutch/conf/regex-normalize.xml

<regex>
<pattern>(univ\.gda\.pl|ug\.gda\.pl)</pattern>
<substitution>ug.edu.pl</substitution>
</regex>

Następna dyskusja:

Czy jeden test powinien tes...




Wyślij zaproszenie do