Temat: Regresja logistyczna a "nie do końca" niezależne obserwacje.

Wyobraźmy sobie następującą sytuację:

x osób ocenia y produktów na kilku zmiennych a następnie niektóre z nich wybiera, inne nie. Oceny nie są ze sobą skorelowane, więc z korelacją predyktorów nie ma problemu.

Zbiór danych jest zorganizowany tak, że jeden rekord reprezentuje ocenę i wybór jednego produktu przez jedną osobę, tak więc dla każdej osoby istnieje y rekordów, a dla każdego produktu x rekordów.

Dopasowałem metodą największej wiadygodności, na razie raczej dla zabawy, do tych danych model regresji logistycznej przewidujący szanse wyboru danego produktu w zależności od ocen, jakie otrzymał. Diagnostycznie model wygląda całkiem przyzwoicie, wyraźnie poprawia predykcję, ma przyzwoite pseudoerkwadraty, a co więcej - pasuje do teorii.

Niestety obserwacje nie są od siebie niezależne - wybory i oceny poszczególnych produktów przez jedną osobę są wszak zależne od indywidualnych preferencji tej osoby (które notabene też zostały zbadane).

Na ile zasadne jest posługiwanie się takim modelem (podejrzewam, że raczej nie jest) i jak ugryźć temat z innej strony? Może jakieś metody odporne?
Konrad Hryniewicz

Konrad Hryniewicz Szef w
www.metodolog.pl

Temat: Regresja logistyczna a "nie do końca" niezależne obserwacje.

Może najpierw analiza skupień, a później korespondencja(e) ? Albo sama korespondencja?

Temat: Regresja logistyczna a "nie do końca" niezależne obserwacje.

To jest hierarchiczny (mieszany) model logistyczny. Może się okazać, że korelacje błędów pomiaru nic w modelu nie zmieniają i można zwyczajnie zrobić regresję logistyczną, ale trzeba by to najpierw przetestować.

Co do software'u który radzi sobie fantastycznie z takim problemem: pakiet lme4 w R. Przynajmniej dopóki nie masz danych, dla których zabraknie RAMu.

W SPSS (bodajże w Advanced Models) jest Uogólniony Model Mieszany, gdzie można wyspecyfikować funkcję logistyczną jako funkcję wiążącą. Z mojej perspektywy procedura bezużyteczna bo SPSS nie daje dostępu do pełnego zestawu parametrów modelu szacowanych na poziomie jednostek niższych w hierarchii, ale wystarczy, żeby zobaczyć, czy model mieszany w ogóle jest potrzebny.

Z innego software'u dla modeli hierarchicznych nie korzystałem, na pewno jest PROC MIXED w SAS, xtmixed w Stacie.

Następna dyskusja:

Regresja logistyczna - apli...




Wyślij zaproszenie do