Paweł S. .
Temat: Regresja logistyczna a "nie do końca" niezależne obserwacje.
Wyobraźmy sobie następującą sytuację:x osób ocenia y produktów na kilku zmiennych a następnie niektóre z nich wybiera, inne nie. Oceny nie są ze sobą skorelowane, więc z korelacją predyktorów nie ma problemu.
Zbiór danych jest zorganizowany tak, że jeden rekord reprezentuje ocenę i wybór jednego produktu przez jedną osobę, tak więc dla każdej osoby istnieje y rekordów, a dla każdego produktu x rekordów.
Dopasowałem metodą największej wiadygodności, na razie raczej dla zabawy, do tych danych model regresji logistycznej przewidujący szanse wyboru danego produktu w zależności od ocen, jakie otrzymał. Diagnostycznie model wygląda całkiem przyzwoicie, wyraźnie poprawia predykcję, ma przyzwoite pseudoerkwadraty, a co więcej - pasuje do teorii.
Niestety obserwacje nie są od siebie niezależne - wybory i oceny poszczególnych produktów przez jedną osobę są wszak zależne od indywidualnych preferencji tej osoby (które notabene też zostały zbadane).
Na ile zasadne jest posługiwanie się takim modelem (podejrzewam, że raczej nie jest) i jak ugryźć temat z innej strony? Może jakieś metody odporne?