konto usunięte

Temat: regresja a korelacje

Wyszedł mi dość dziwny wynik. Otóż zmienna niezależna ze zmienną zależną nie korelowały ze sobą istotnie (korelacje metodą r Pearsona) natomiast kiedy wprowadziłam zmienną niezależną wraz z trzema innymi (które korelowały ze zmienną zależną)do modelu regresji (wielokrotna krokowa) okazało się, że ta, która wcześniej nie korelowała okazała się jednym z istotnych predyktorów (obok tych trzech pozostałych). Jak to możliwe???
Filip Gurgul

Filip Gurgul Analityk i
Wykładowca

Temat: regresja a korelacje

Czy zmienne objaśniające nie są przypadkiem współliniowe albo bardzo mocno ze sobą skorelowane?

konto usunięte

Temat: regresja a korelacje

Zmienna, która nieoczekiwanie się ujawniła, jest skorelowana dodatnio z inną, która jest w modelu na poziomie 0,50, ale co ciekawe jedna z nich w analizie regresji ujawniła się z dodatnim znakiem dla odpowiadającej jej wagi beta (to ta nieoczekiwana), druga z ujemnym znakiem... Jeżeli chodzi o współliniowość to dla omawianej cechy tolerancja równa się 0,742 VIF 1,347
Filip Gurgul

Filip Gurgul Analityk i
Wykładowca

Temat: regresja a korelacje

No to jest dość typowe zjawisko. Wielokrotnie się z nim spotykałem. Jest tak że obie zmienne nie pasują do modelu ale jak są dodane obie to nawzajem się wykluczają (stąd jedna ma znak ujemny a druga dodatni). Ten efekt obiawia się jeszcze tym, że jak usuniesz tą zmienną która ma współczynnik co do wartości bezwzględnej większy, to druga zmienna albo stanie się nieistotna albo jej współczynnik zmieni znak. Ogólnie jest to źle wyspecyfikowany model. Zresztą korelacja 0,5 to jest dość dużo. W Klasycznej Metodzie Najmniejszych Kwadratów zakładamy brak korelacji między zmiennymi obiaśniającymi. Proponowałbym albo zastosować UMNK, albo zrezygnować z jednej zmiennej, albo za pomocą analizy czynnikowej zredukować obie zmienne do jednej.

konto usunięte

Temat: regresja a korelacje

Zmieszanie zmiennych analizą czynnikową mogłoby mocno zakłócić założenia pytań problemowych, toć nie wiemy cóż to za zmienne. Rezygnacja z jednej zmiennej również może okazać się poważnym błędem ze względu na jej istotność (nie asymptomatyczną, chodzi o ważność :)) w metodologii przedsięwzięcia. Najzasadniej byłoby użyć UMNK, najbezpieczniej moim zdaniem.
Pozdrawiam

konto usunięte

Temat: regresja a korelacje

Katarzyna Martowska:
istotnych predyktorów (obok tych trzech pozostałych). Jak to możliwe???
A no możliwe, co kolejny raz potwierdza postulat, że może czas najwyższy zmienić analizę kowariancji na jakąś inną. Problem w tym, że to tak jak z demokracją: nie jest idealna, ale inne systemy są jeszcze gorsze.

Otóż należy usunąć zmienną zaburzającą strukturę macierzy kowariancji (co w efekcie prowadzi do nieprawidłowego wnioskowania o istotności), ale nie wybierając zmienną o większej co do modułu ocenie parametru (pierwszy raz słyszę o czymś takim), ale tą, która ma maksymalną wartość miary VIF (Variance InFlation).

Pozdrawiam
Marcin
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: regresja a korelacje

Jedyne pewne rozwiązanie tego problemu, to zebrać więcej danych. Wszystkie inne techniki to jedynie nieco lepsze lub gorsze próby ratowania sytuacji.
Zmiana znaku może świadczyć o problemie z wspólniowością predyktorów ale wcale nie musi, zatem nie roztrzyga o występowaniu problemu.
VIF jako taki bezpośrednio nie przekłada się na problem z estymacją parametrów w modelu regresji, poza jednym przypadkiem gdy macierz XtX jest nieodwracalna (osobliwa).

konto usunięte

Temat: regresja a korelacje

Wojciech Sobala:
VIF jako taki bezpośrednio nie przekłada się na problem z estymacją parametrów w modelu regresji, poza jednym przypadkiem
Ale tutaj nie ma problemów z estymacją, a jest ewidentnie problem z weryfikacją istotności parametrów. VIF jako taki wskazuje zmienną która najbardziej "rozdyma" (jak to kiedyś określił D.F. Hendry) macierz kowariancji, co jak wiemy ma wpływ na wartości statystyk t.
Inną sprawą jest natomiast sama postać analityczna: być może bowiem związek zmiennych niezależnych ze zmienną zależną wcale nie jest liniowy (w rozumieniu wartości zmiennych). Mocnym testem jest RESET23 (stosując konwencję Ox'a), czyli po prostu RESET w pełnej wersji.

Temat: regresja a korelacje

Przy okazji - tutaj pomoże nie tylko VIFi, ale także CI, czyli indeks uwarunkowania zmiennej (sqrt(λmax/λi)) oraz K (kappa) - współczynnik uwarunkowania macierzy (tu: kowariancji), czyli sqrt(λmax/λmin).

Tutaj zapala się lampka: "coś związanego z PCA" (a dokładniej - rozkładem spektralnym macierzy kowariancji). Opiera się ona o wyznaczanie wartości i wektorów własnych XtX. Wektory te tworzą nową bazę dla danych, taką, że rzuty wariancji danych na kolejne, wyznaczone kierunki (wektory własne, kombinacje liniowe oryginalnych predyktorów), gdzie pierwszy odpowiada największej wartości własnej, drugi - kolejnej co do wartości, mają coraz mniejszą wartość. K mówi wówczas, czy istnieje współliniowość, natomiast CIi jest jej miarą dla i-tej składowej głównej.

Najpierw bierzemy "pod lupę" K, czyli dzielimy pierwszą składową główną, a zatem największą wartość własną gramianu przez najmniejszą. Jeśli zmienne nie byłyby skorelowane, to wszystkie wartości własne byłyby równe (w praktyce w przybliżeniu), a proporcje wariancji równe, co zresztą można pokazać graficznie w postaci "kolistej chmury" danych w przestrzeni. W przypadku dwóch nieskorelowanych zmiennych stosunek dwu prostopadłych średnic koła wynosi 1. Gdy współliniowość zmiennych rośnie, tworzy się "elipsoida" i rośnie stosunek jej średnic (kierunki osi nowej bazy; wektory własne). Jeśli pierw. kwadr. z tego ilorazu jest "duży" (subiektywnie > 20), mamy współliniowość danych. Najwyższa wartość własna jest dla kierunku, na który rzut wariancji danych jest największy i potrzebny jest najmniejszy wkład obu skorelowanych zmiennych, by go przedstawić. Najmniejsza - w tym, w którym rzut jest najmniejszy i potrzebny jest największy wkład obu skorelowanych zmiennych w składową (kierunek osi). Iloraz skrajnych wartości własnych to właśnie K i pokazuje "jak bardzo elipsoidalna" jest chmura danych, biorąc największą i najmniejszą średnicę elipsoidy.

K jest testem ogólnym (coś jak test omnibus F w analizie wariancji), natomiast do znalezienia "winowajców" służy CI. Analizując składowe z najniższymi wartościami własnymi i zarazem najwyższymi CI można wyciągnąć wnioski co do skorelowania zmiennych, patrząc po ich ładunkach (albo "proporcjach wariancji w składowej"). Jeśli w danej składowej jest 1 lub więcej predyktorów z proporcją wariancji > 0.5 , to mamy znalezione zmienne "rozdymające" macierz kowariancji.Adrian Olszewski edytował(a) ten post dnia 12.11.11 o godzinie 05:15

Następna dyskusja:

regresja logiczna , logisty...




Wyślij zaproszenie do