konto usunięte
Temat: Solr + Nutch - mapowanie kilku domen na jedną
Witam, nie jestem do końca przekonany czy we właściwej grupie umieszczam ten wątek, ale w końcu Solr i Nutch to java w pełnej krasie :)Ostatnimi czasy bardzo intensywnie grzebię w tandemie solr + nutch, które mają zastąpić przestarzałego htdig'a. W związku z tym mam prośbę o podpowiedź, naprowadzenie czy pomoc.
Otóż wspomniany htdig pozwalał w łatwy sposób ustawić mapowanie kilku domen na jedną. Konkretnie chodzi o domeny związane z UG (mój pracodawca :P). Jeszcze niedawno głównym adresem było univ.gda.pl, teraz jest to ug.edu.pl, a dodatkowo istnieje jeszcze zewnętrzna domena jednego z wydziałów: wzr.pl = wzr.univ.gda.pl = wzr.ug.edu.pl. Wszystkie strony działają poprawnie i wersje domen są poprawne, ale najwłaściwsza to ta z ug.edu.pl.
Chodzi o to, żeby Nutch i Solr wiedziały, że mieląc adres univ.gda.pl czy ug.edu.pl, mają doczynienia z jedną treścią. Coś w rodzaju duplicate content, którego nie chcę likwidować!!!
Czy istnieje jakiś patch albo wbudowany mechanizm pozwalający wykonac tego rodzaju mapowanie w solr i nutch? Chcę uniknąć sytuacji w której w wynikach wyszukiwania pokazują się te same podstrony, z róznymi domenami, np. http:/www.ug.edu.pl/sklad oraz http://www.univ.gda.pl/sklad. Oba linki działają, ale ten pierwszy jest istotny z punktu widzenia ważności domeny. Chodzi też o to, żeby indeks nie traktował tych samych adresów jako oddzielne.
Niestety nie ma możliwości przekierowania na sztywno całej domeny univ.gda.pl na ug.edu.pl, bo nie wszystko działa tak samo pod oboma adresami. W większości wypadków tak jest, ale jak to często bywa są wyjątki od reguły. Są też stare pliki doc, rtf, pdf, html itp, które mają w treści zaszyte stare linki (z univ.gda.pl) i są indeksowane przez crawler nutch.
Mam nadzieję, że zbytnio nie namieszałem wyjaśniając problem.
Z góry dzięki za pomoc.
Pzdr.
Seba