Temat: Zmienne odstające i zmienna wykluczona z regresji
Maciej, mam trochę zastrzeżeń co do Twoich rekomendacji wykorzystania reszt studentyzowanych/standaryzowanych i dystansu Cooka.
Ad. Reszty studentyzowane:
Wartość 1,96 odpowiada prawdopodobieństwu testowemu 0,05. Już w zbiorze 100 obserwacji bedziemy oczekiwać 5 obserwacji z wartością bezwzględną reszty studentyzowanej > 2. W badaniu na próbie 1000 wartości bezwzględne reszt studentyzowanych mogą dość łatwo przekraczać 3 i to jeszcze niekoniecznie będzie outlier (a oczekiwane wartości bezwględne reszt wzrosną np. przy akceptacji w modelu odchyleń od normalności rozkładów). Osobiście w diagnostyce outlierów w SPSS wykorzystuję kryterium graficzne: wykres rozrzutu reszt standaryzowanych na wartości przewidywane:
/scat (*zresid, *zpred)
I outlier jest na tym wykresie obserwacją odstającą od chmury danych oraz o dużej wartości bezwzględnej reszty (zależnej od wielkości zbioru danych).
W R (w SPSS zresztą też, ale "ręcznie") można jeszcze zrobić wykres bąbelkowy, dodać zróżnicowanie wielkości reprezentacji punktu danych ze względu na dystans Cooka lub leverage.
Ad. dystans Cooka:
Dystans Cooka uważam za bardzo użyteczną miarę diagnostyczną "odstawania" z perspektywy zgodności oszacowań parametrów modeli. W diagnostyce reszt niekoniecznie widać np. odchylenie jednej obserwacji od liniowej relacji cząstkowej w modelu wielowymiarowym. To widać będzie np. na wykresach cząstkowych lub na dfBetach, ale też zwiększa dystans Cooka (jedna statystka zamiast interpretacji kilku wartości/wykresów).
Nie mam jednak zaufania do żadnych znormalizowanych kryteriów odcięcia obserwacji po dystansie Cooka. Używam oceny lider-peleton: outlier może być zidentyfikowany po odstawaniu od innych wartości dystansu Cooka. Można to ocenić graficznie (wykres rozrzutu dystansu Cooka na wartość arbitralną, np. identyfikator obserwacji w zbiorze) lub przyglądając się kolejnym wartościom dystansu Cooka po przesortowaniu po nim obserwacji malejąco.
Przykład
Przykład z wczoraj, lista dystansów Cooka uszeregowana od największej, mała próbka (n=89):
.30578 ("lider przed peletonem")
.06605
.05364
.05017
.04901 i dalej "peleton", wartości bliskie sobie.
Przypadek pierwszy ma niskie wartości (ale ciągle w dopuszczalnym przedziale) na dwóch zmiennych skorelowanych -0,3, przy czym jedna zmienna jest skalą opartą na 6 pozycjach wchodzących do skali normalnie i 1 odwróconej a druga na 4 pozycjach odwróconych i 1 nieodwróconej. Wzór odpowiedzi w kwestionariuszu (skala 1-6): same 6 i 5 niezależnie od tego, czy pozycja jest odwrócona w kwestionariuszu, czy nie (nie tylko na skalach w moim modelu, ale na wszystkich pytaniach w badaniu). Badany ze wszystkim się albo zgadza (lub niekiedy tylko raczej zgadza), niezależnie od tego, co jest napisane. Kwestionariusz z dużym prawdopodobieństwem wypełniony nieprawidłowo, choć nie w oczywisty sposób. Reszta studentyzowana w modelu wielowymiarowym niczym się nie wyróżnia. Usunięcie przypadku obniża parametr B dla jednej ze zmiennych w modelu o ponad 20%.
A czy usunąłem? Nie. Usunąłbym, gdyby rzeczywiście interesował mnie ten model. Ale korzystałem z niego tylko pomocniczo w celu diagnozy zupełnie innego problemu w danych. A z jego perspektywy ta obserwacja znika w błędzie pomiaru. A że ocena jakości pomiaru jest jednym z celów analizy, tym bardziej zawyżanie wyników poprzez usuwanie szumu nie jest wskazane. Cały zbiór jest też zresztą kilkanaście razy większy (modele budowane równolegle dla kilkunastu subpopulacji).
Ale w logu pracy z danymi odnotowałem podejrzenia co do tej obserwacji. Jeszcze może "wyskoczyć" w innych analizach.
Inną sprawą jest identyfikacja podejrzanej obserwacji, a inną jej usunięcie z analizy jako outliera. Żeby wyłączyć obserwację poza analizę należałoby mieć jednak trochę lepsze uzasadnienie, niż podejrzane wartości statystyk diagnostycznych. Na przykład: zidentyfikowane dzięki diagnostyce outlierów błędy w danych, fraud, przynależność do innej subpopulacji obserwacji (emeryt w badaniu na próbie studentów, dzieciak powtarzający klasę w badaniu uczniów, zakup wódki weselnej przez przyszłą parę młodą w danych z paragonów sklepu monopolowego), itp.
To sugestie z perspektywy praktycznej pracy z danymi. Nawet nie próbuję pokusić się o podbudowę matematyczną.