Jarosław Demianowski

Jarosław Demianowski Tactical Buyer -
Logistics Sourcing
Europe

Temat: Zmienne odstające i zmienna wykluczona z regresji

Witam, będę bardzo wdzięczny za pomoc!

Wykonałek wykres rozrzutu dwóch zmiennych i naniosłek linie tendu i moja promotor skomentowała ten wykres tak "Ma Pan tu dewianta, proszę go usunąć, wtedy sprawdzić wyniki".

Jak sprawdzić, który wynik odstaje? Nie bardzo wiem, jak ten wykres tutaj umieścić, więc dodalem go jako zdjęcie profilowe :)

Druga sprawa, spss w czasie regresji z kilkoma predytkorami wykluczyl mi jeden predyktor. Pani promotor pyta czemu? Nie znam sie aż tak na spssie.

Pomocy!

Pozdrawiam,
JarekJarosław Demianowski edytował(a) ten post dnia 14.01.12 o godzinie 18:36
Maciej B.

Maciej B. Doktorant

Temat: Zmienne odstające i zmienna wykluczona z regresji

Witam,

w SPSS można to zrobić w analizie regresji w następujący sposób:
W oknie regresji liniowej klikamy zapisz i tam zaznaczamy (na przykład):
a) odległość COOKa
b) reszty Studentyzowane
c) Standaryzowane DfBety

Do zbioru dopisane są nowe zmienne, które możemy filtrować. W przypadku
a) odległości Cooka wartości większe od 1 informują o wartości odstającej
b) reszt studentyzowanych wartości większe od co do wartości bezwzględnej od 1,96 mogą mówić o obserwacjach odstających.
c) Standaryzowanych DfBet wartości większe co do wartości bezwzględnej od 0,2 mówią o obserwacji odstającej.

To są jedne z wielu możliwości. Możesz poczytać też od DFBetas - wpływie poszczególnych obserwacji na parametry modelu.

Co do zmiennych wykluczonych - były nieistotne tj. p-value > 0,05 mówi o nieistotności zmiennej (statystycznie nieistotnie różna od 0). Poczytaj o weryfikacji modelu ekonometrycznego (test t, test F, testowanie założeń itp). Pierwszy link z googla (hasło: "weryfikacja modelu ekonometrycznego filetype:pdf")
http://www.min-pan.krakow.pl/Wydawnictwa/GSM2411/gawli...

Poza tym na tym załączonym przez Ciebie obrazku widać, że będziesz miał słabe wyniki, nie widać dużej zależności liniowej.

Pozdrawiam
MBMaciej B. edytował(a) ten post dnia 14.01.12 o godzinie 19:21
Wojciech R.

Wojciech R. Doktor nauk
ekonomicznych/analit
yk/statystyk/dydakty
k

Temat: Zmienne odstające i zmienna wykluczona z regresji

Osobiście przy wykrywaniu obserwacji odstających preferuję miarę zwaną ilorazem kowariancji (covariance ratio, COVRATIO). Jest ona o tyle przyjemna , że jest unormowana w taki sposób, że jeżeli jest większa od jedności oznacza to, że usunięcie danej obserwacji zwiększy błąd standardowy oszacowania, zaś jeżeli jest mniejsza od jedności - jej usunięcie zmniejszy błąd standardowy oszacowania.

Oczywiście miary podane przez mojego szanownego przedmówcę też są użyteczne. I najlepiej przeanalizować wszystkie te wartości zanim podejmie się decyzję o usunięciu obserwacji.
Jarosław Demianowski

Jarosław Demianowski Tactical Buyer -
Logistics Sourcing
Europe

Temat: Zmienne odstające i zmienna wykluczona z regresji

Panie Macieju i Panie Wojtku dziękuję za odpowiedz, jednak powiem szczerze, że niestety nie bardzo to rozumiem. Oczywiście znalazłem opcje wymienione przez Pana Macieja jednak nie wiem jak to intrpetować. Pani promotor chce żebym ze zbioru danych usunął dewiata, rozumiem, że chodzi o wynik odstający. Czy jest sposób, żeby spss wskazał, która obserwacja jest tym biednym dewiatem?
Maciej B.

Maciej B. Doktorant

Temat: Zmienne odstające i zmienna wykluczona z regresji

Witam,

trzeba postąpić zgodnie z tym co napisałem znaleźć obserwacje, które są powyżej wymienionych przeze mnie i przez Pana Wojtka wartości. Można zrobić to :
a) sortując zbiór względem tej wartości
b) wybrać obserwacje spełniające warunek, że np. cook < 1. Tę opcję można znaleźć w Dane -> Wybierz obserwacje -> Jeżeli jest spełniony warunek .

Mam nadzieję, że teraz już jest jaśniej.
Jarosław Demianowski

Jarosław Demianowski Tactical Buyer -
Logistics Sourcing
Europe

Temat: Zmienne odstające i zmienna wykluczona z regresji

Problem polegałm na tym, że nie wiedziałem gdzie patrzec na te wartości. Dopiero po napisnaiu posta zauważyłem, że utworzyła się nowa zmienna w bazie. Niestety żadna wartośc nie przekracza 1.

Za to znalazłem opcje "Znajdz anomalie" i ta procedura wskazała mi jedną obserwację, która na tym wykresie odbiega od innych. Myślę, że o to mogło chodzić promotor skoro widziała wykres a nie miała bazy danych.

Dziękuję za pomoc!

Temat: Zmienne odstające i zmienna wykluczona z regresji

Maciej, mam trochę zastrzeżeń co do Twoich rekomendacji wykorzystania reszt studentyzowanych/standaryzowanych i dystansu Cooka.

Ad. Reszty studentyzowane:
Wartość 1,96 odpowiada prawdopodobieństwu testowemu 0,05. Już w zbiorze 100 obserwacji bedziemy oczekiwać 5 obserwacji z wartością bezwzględną reszty studentyzowanej > 2. W badaniu na próbie 1000 wartości bezwzględne reszt studentyzowanych mogą dość łatwo przekraczać 3 i to jeszcze niekoniecznie będzie outlier (a oczekiwane wartości bezwględne reszt wzrosną np. przy akceptacji w modelu odchyleń od normalności rozkładów). Osobiście w diagnostyce outlierów w SPSS wykorzystuję kryterium graficzne: wykres rozrzutu reszt standaryzowanych na wartości przewidywane:
/scat (*zresid, *zpred)

I outlier jest na tym wykresie obserwacją odstającą od chmury danych oraz o dużej wartości bezwzględnej reszty (zależnej od wielkości zbioru danych).
W R (w SPSS zresztą też, ale "ręcznie") można jeszcze zrobić wykres bąbelkowy, dodać zróżnicowanie wielkości reprezentacji punktu danych ze względu na dystans Cooka lub leverage.

Ad. dystans Cooka:
Dystans Cooka uważam za bardzo użyteczną miarę diagnostyczną "odstawania" z perspektywy zgodności oszacowań parametrów modeli. W diagnostyce reszt niekoniecznie widać np. odchylenie jednej obserwacji od liniowej relacji cząstkowej w modelu wielowymiarowym. To widać będzie np. na wykresach cząstkowych lub na dfBetach, ale też zwiększa dystans Cooka (jedna statystka zamiast interpretacji kilku wartości/wykresów).

Nie mam jednak zaufania do żadnych znormalizowanych kryteriów odcięcia obserwacji po dystansie Cooka. Używam oceny lider-peleton: outlier może być zidentyfikowany po odstawaniu od innych wartości dystansu Cooka. Można to ocenić graficznie (wykres rozrzutu dystansu Cooka na wartość arbitralną, np. identyfikator obserwacji w zbiorze) lub przyglądając się kolejnym wartościom dystansu Cooka po przesortowaniu po nim obserwacji malejąco.

Przykład
Przykład z wczoraj, lista dystansów Cooka uszeregowana od największej, mała próbka (n=89):
.30578 ("lider przed peletonem")
.06605
.05364
.05017
.04901 i dalej "peleton", wartości bliskie sobie.

Przypadek pierwszy ma niskie wartości (ale ciągle w dopuszczalnym przedziale) na dwóch zmiennych skorelowanych -0,3, przy czym jedna zmienna jest skalą opartą na 6 pozycjach wchodzących do skali normalnie i 1 odwróconej a druga na 4 pozycjach odwróconych i 1 nieodwróconej. Wzór odpowiedzi w kwestionariuszu (skala 1-6): same 6 i 5 niezależnie od tego, czy pozycja jest odwrócona w kwestionariuszu, czy nie (nie tylko na skalach w moim modelu, ale na wszystkich pytaniach w badaniu). Badany ze wszystkim się albo zgadza (lub niekiedy tylko raczej zgadza), niezależnie od tego, co jest napisane. Kwestionariusz z dużym prawdopodobieństwem wypełniony nieprawidłowo, choć nie w oczywisty sposób. Reszta studentyzowana w modelu wielowymiarowym niczym się nie wyróżnia. Usunięcie przypadku obniża parametr B dla jednej ze zmiennych w modelu o ponad 20%.

A czy usunąłem? Nie. Usunąłbym, gdyby rzeczywiście interesował mnie ten model. Ale korzystałem z niego tylko pomocniczo w celu diagnozy zupełnie innego problemu w danych. A z jego perspektywy ta obserwacja znika w błędzie pomiaru. A że ocena jakości pomiaru jest jednym z celów analizy, tym bardziej zawyżanie wyników poprzez usuwanie szumu nie jest wskazane. Cały zbiór jest też zresztą kilkanaście razy większy (modele budowane równolegle dla kilkunastu subpopulacji).

Ale w logu pracy z danymi odnotowałem podejrzenia co do tej obserwacji. Jeszcze może "wyskoczyć" w innych analizach.

Inną sprawą jest identyfikacja podejrzanej obserwacji, a inną jej usunięcie z analizy jako outliera. Żeby wyłączyć obserwację poza analizę należałoby mieć jednak trochę lepsze uzasadnienie, niż podejrzane wartości statystyk diagnostycznych. Na przykład: zidentyfikowane dzięki diagnostyce outlierów błędy w danych, fraud, przynależność do innej subpopulacji obserwacji (emeryt w badaniu na próbie studentów, dzieciak powtarzający klasę w badaniu uczniów, zakup wódki weselnej przez przyszłą parę młodą w danych z paragonów sklepu monopolowego), itp.

To sugestie z perspektywy praktycznej pracy z danymi. Nawet nie próbuję pokusić się o podbudowę matematyczną.
Maciej B.

Maciej B. Doktorant

Temat: Zmienne odstające i zmienna wykluczona z regresji

Panie Mariuszu, bardzo dziękuję za ten komentarz i uwagi dotyczące miary Cooka.

Następna dyskusja:

Zadanie a analizy regresji ...




Wyślij zaproszenie do