Odpowiedz Odpowiedz

Solr + Nutch - mapowanie kilku domen na jedną

konto usunięte

Temat: Solr + Nutch - mapowanie kilku domen na jedną

Witam, nie jestem do końca przekonany czy we właściwej grupie umieszczam ten wątek, ale w końcu Solr i Nutch to java w pełnej krasie :)

Ostatnimi czasy bardzo intensywnie grzebię w tandemie solr + nutch, które mają zastąpić przestarzałego htdig'a. W związku z tym mam prośbę o podpowiedź, naprowadzenie czy pomoc.

Otóż wspomniany htdig pozwalał w łatwy sposób ustawić mapowanie kilku domen na jedną. Konkretnie chodzi o domeny związane z UG (mój pracodawca :P). Jeszcze niedawno głównym adresem było univ.gda.pl, teraz jest to ug.edu.pl, a dodatkowo istnieje jeszcze zewnętrzna domena jednego z wydziałów: wzr.pl = wzr.univ.gda.pl = wzr.ug.edu.pl. Wszystkie strony działają poprawnie i wersje domen są poprawne, ale najwłaściwsza to ta z ug.edu.pl.

Chodzi o to, żeby Nutch i Solr wiedziały, że mieląc adres univ.gda.pl czy ug.edu.pl, mają doczynienia z jedną treścią. Coś w rodzaju duplicate content, którego nie chcę likwidować!!!

Czy istnieje jakiś patch albo wbudowany mechanizm pozwalający wykonac tego rodzaju mapowanie w solr i nutch? Chcę uniknąć sytuacji w której w wynikach wyszukiwania pokazują się te same podstrony, z róznymi domenami, np. http:/www.ug.edu.pl/sklad oraz http://www.univ.gda.pl/sklad. Oba linki działają, ale ten pierwszy jest istotny z punktu widzenia ważności domeny. Chodzi też o to, żeby indeks nie traktował tych samych adresów jako oddzielne.

Niestety nie ma możliwości przekierowania na sztywno całej domeny univ.gda.pl na ug.edu.pl, bo nie wszystko działa tak samo pod oboma adresami. W większości wypadków tak jest, ale jak to często bywa są wyjątki od reguły. Są też stare pliki doc, rtf, pdf, html itp, które mają w treści zaszyte stare linki (z univ.gda.pl) i są indeksowane przez crawler nutch.

Mam nadzieję, że zbytnio nie namieszałem wyjaśniając problem.

Z góry dzięki za pomoc.

Pzdr.
Seba

Link do wypowiedzi

konto usunięte

Temat: Solr + Nutch - mapowanie kilku domen na jedną

Rozwiązaniem okazał sie moduł "normalize" w etapie parsowania przez Nutch.

/nutch/conf/regex-normalize.xml



<regex>

  <pattern>(univ\.gda\.pl|ug\.gda\.pl)</pattern>

  <substitution>ug.edu.pl</substitution>

</regex>

Link do wypowiedzi

« Wróć do tematów

Odpowiedz

Podobne tematy

Następna dyskusja:

Java

Czy na pewno chcesz zrezygnować z tej grupy?

Zgłoś nieprawidłowości w wypowiedzi

Solr + Nutch - mapowanie kilku domen na jedną

Solr + Nutch - mapowanie kilku domen na jedną

Blokowanie użytkownika

Temat: Solr + Nutch - mapowanie kilku domen na jedną

Temat: Solr + Nutch - mapowanie kilku domen na jedną

Podobne tematy

Java » Czy jeden test powinien testować jedną rzecz? -

Java » laczenie kilku jarow w jedna calosc -

Java » JPA - jedna encja dla kilku(nastu) identycznych tabel z... -

Java » merge kilku plików war za pomocą maven -

Java » Mapowanie ról - Glassfish -

Java » Pilnie poszukiwany programista Java/Nutch -

Java » Integracja Solr z Morfologik -

Java » Jak dramatycznie skrócić czas indeksowania w Apache Solr... -

Czy jeden test powinien tes...

JBoss + Eclipse + automatyczny...

java ee i pliki

Oferty pracy