Temat: analiza czynnikowa
Mateusz K.:
wymieniane jako metody Analizy czynnikowej?
Pozdrawiam,
Mateusz
Cześć. Wybacz, że odpowiedź jest spóźniona, ale raz, że byłem w delegacji, dwa, próbowałem to jakoś w miarę prosto wyjaśnić. Sam się czasem zakręcam w tym temacie :) I od razu uprzedzam - aby to wyczuć i zrozumieć, musisz sporo grzebać po sieci. Znajdziesz setki artykułów (głównie PDF) z opisem obu metod oraz porównań "PCA vs. FA".
A zatem - tak, PCA jest formą analizy czynnikowej. Zarówno w EFA jak i PCA "rozkładasz dane na czynniki" :) a tymi czynnikami" są w PCA składowe główne.
Przy takich tematach dobrze jest wprowadzić pojęcie modelu zmiennych ukrytych. W modelu tym zakłada się, że obserwowane (zmierzone) wielowymiarowe dane "generowane" są przez proces przebiegający w przestrzeni zdefiniowanej mniejszą liczbą nieobserwowanych (ukrytych) zmiennych (latentnych - osobiście nie używam tego potworka językowego).
Mówiąc ściślej - obserwowane przez nas dane są "zmapowane" procesem pomiaru* z niskowymiarowej przestrzeni związanej ze zmiennymi ukrytymi na wysokowymiarową przestrzeń, gdzie są dodatkowo obarczone różnymi czynnikami losowymi.
Mamy p-wymiarową przestrzeń "zmiennych ukrytych" (pierwotna), w której pewien model generuje dane według pewnego rozkładu. W procesie pomiaru* dane te są transformowane pewnym (gładkim) przekształceniem do pewnej p-wymiarowej rozmaitości w nowej q-wymiarowej przestrzeni. Dodatkowo dane te otrzymują nowe wymiary z wartościami wygenerowanymi przez tzw. "model błędów" - i łącznie już otrzymujemy q-wymiarowe dane w q-wymiarowej przestrzeni.
W świetle tych informacji
obie metody mają źródło w jednej koncepcji "transformacji przestrzeni zmiennych", ale różnią się przedmiotem badań i w konsekwencji - rodzajem "interesującej nas wariancji".
-----------------
* ponieważ to my decydujemy, jakie aspekty danego zjawiska badamy, nierzadko okazuje sie, że badanie danej cechy zastępujemy, świadomie lub nie, badaniem kilku innych cech. Np. skłonność do A, B i C tak naprawdę określa skłonność do D. Zamiast badać D, badamy A, B i C, co oznacza zwiększenie wymiarowości badanych danych.
Po prostu albo a) nie wiemy, jak zmierzyć wprost pewną cechę, więc mierzymy to, co nam się wydaje, ze z nią koreluje, b) zmierzyliśmy wiele różnych cech, ale żywimy głębokie przekonanie, że za zjawiskiem stoi coś ogólniejszego, co da się opisać prostszą strukturą cech.
-----------------
Uwaga, tu jest kluczowy moment. Dane p wymiarowe stają się q wymiarowe. Ale dlaczego? Obrazowo można powiedzieć, że zmienność w ramach danego wymiaru (zmiennej) F1 (np. atrakcyjność_lokalizacji) w ramach pomiarów zostaje "przydzielona" do kilku nowych wymiarów, {X1,...Xn} (np. {odległość_od_przystanku, ilość_otaczającej_zieleni, liczba_przestepstw_w_okolicy, odleglosc_od_szkol, liczba_miejsc_rozrywki, odleglosc_od_przychodni...}, z których każdy także "dodaje od siebie" jakąś zmienność "swoistą".
Zmienna atrakcyjność_lokalizacji "ładuje" nam zmienne odleglosc_od_przystanku, liczba_miejsc_rozrywki, itd. Jej zmienność jest w nich zawarta.
To było dla jednej zmiennej ukrytej. Kolejne także będą nam ładować nasze zmienne obserwowane, tylko w różnych konfiguracjach, np.:
ZmObs1 = mocno_ladowana ZmUkr1 + slabo_ladowana ZmUkr2 + pewna zmienność swoista ZmObs1
ZmObs2 = slabo_ladowana ZmUkr1 + mocno_ladowana ZmUkr2 + pewna zmienność swoista ZmObs2
itd...
W ramach modeli zmiennych ukrytych staramy się znaleźć transformację odwrotną z tego, co obserwujemy (o wysokim wymiarze) na to, co wygenerowało te dane a czego nie obserwujemy wprost (o niższym wymiarze). Takich modeli jest kilka, a jednym z nich jest własnie analiza składowych głównych (PCA) i ekspoloracyjna analiza czynnikowa (EFA) - eksploracyjna, bo jest także konfirmacyjna/potwierdzająca.
W EFA zakłada się, że: dane w przestrzeni zmiennych ukrytych wygenerował rozkład standardowy normalny (zmienne generujące tę przestrzeń to właśnie czynniki), odwzorowanie między przestrzeniami jest liniowe f(x)=Ax+B (kolumny macierzy A to to właśnie ładunki czynnikowe w FA i ładunki komponentu w PCA), zaś model błędów generuje wartości o rozkładem normalnym z pewną macierzą kowariancji C, na której przekątnej leżą tzw. czynniki swoiste.
Teraz słowo o zapisie modelu EFA.
Mamy układ równań:
Xi = ai1*F1 + ai2*F2 + ... aik*Fk + bi*Ui
Ogólnie można go zapisać macierzowo: X = AF + BU, gdzie:
X - wektor zmiennych obserwowanych
A - macierz pewnych współczynników kombinacji liniowych (X=AF to kombinacja liniowa). Noszą one nazwę ładunków czynnikowych. Te ładunki czynnikowe to inaczej ... korelacje danej zmiennej obserwowanej i zmiennej ukrytej, czyli aij = r(Xi, Fj)
F - wektor czynników wspólnych czyli naszych zmiennych ukrytych, które "ładują" nam zmienne obserwowane
B - macierz ładunków czynnikowych dla składników swoistych (swoistych, czyli związanych wyłącznie ze zmiennymi obserwowanymi). Jest to macierz diagonalna.
U - wektor czynników swoistych
Dla uproszczenia będę dalej zakładał, że zmienne dane w przestrzeni zmiennych obserwowanych są zestandaryzowane, więc ich wariancja=1
Otóż wariancja całkowita danej zmiennej obserwowanej Xi = wariancja wspólna Xi + wariancja swoista Xi
A czym jest wariancja wspólna? Wiemy, że kwadrat korelacji okresla procent zmienności jednej zmiennej wyjaśnioną drugą zmienną. A że aij = rij, więc aij^2 to procenty wariancji danej zmiennej Xi wyjaśnionej przez kolejne czynniki. No to posumujmy je: var(Xi) = a^2i1 + a^2i2 + ....a^2in (war. wsp.) + var(Ui) (war. swoista).
Można to krócej zapisać: var(Xi) = hi^2 + var(Ui). To h2i nosi nazwę "zasobu zmienności wspólnej (ang. communality) i opisuje stopień zależności zmiennej obserwowanej Xi od zmiennych ukrytych.
Co opisuje zmienność z zbiorze zmiennych obserwowanych? Ich macierz kowariancji, a po zestandaryzowaniu - korelacji. Wiedząc, że R^2 = a^2, hi^2 = suma kwadratów ładunków czynnikowych oraz to, że w zapisie macierzowym układ takich sum zapisujemy jako P*P' (apostrof - transponowanie), macierz korelacji można teraz opisać jako C=A*A' + V ; gdzie V=diag(wariancje swoiste)
Zajmijmy się jednak teraz związkiem PCA i EFA. Otóż w ramach powyższej terminologii także
PCA jest analizą czynnikową. Z tą różnicą, że w PCA operujesz macierzą kowariancji, a w EFA tzw. zredukowaną macierzą kowariancji. Co to oznacza?
W
PCA operujemy pełną macierz kowariancji - czyli badamy 100% zmienności zawartej w zbiorze zmiennych obserwowanych i nasze znalezione składowe główne TAKŻE będą w sumie wyjaśniać jej 100%. Po prostu "poprzenosimy" zmienność między zmiennymi inaczej ją "rozkładając" w nowych - składowych głównych. Dlatego mówiłem, że to tylko "transformacja", przenoszenie z "miejsca na miejsce" :)
Czyli w PCA zasoby zmienności wspólnej są równe 1, a wariancja swoista jest równa 0. Nasze "ukryte składowe główne odpowiadają za całą wariancję" w zbiorze zmiennych obserwowanych. Nic "nowego" (swoistego) tu się nie pojawia.
Operacje obliczeniowe są tu relatywnie łatwe - liczymy po prostu wartości własne (a dla lepszej dokładności obliczeń - wartości osobliwe) macierzy korelacji, obliczamy wektory własne - i mamy składowe główne. Proste obliczenia rodem z podstaw algebry liniowej.
W efekcie przeprowadzenia PCA zmienne (składowe główne) stanowiące kombinacje liniowe wektorów zmiennych obserwowanych. Zmieniłeś po prostu danym bazę. Możesz teraz z tymi składowymi głównymi coś zrobić, np. zastosować w regresji liniowej, gdy zmienne niezależne są mocno skorelowane ze sobą, ale możesz też odrzucić kilka czynników (wyjaśniających mało zmienności) i dokonać kompresji danych. Mówiąc prosto - wyniki PCA to współrzędne danych w nowym układzie współrzędnych tworzonym przez składowe główne (mające interpretacje lub nie).
Ale pod warunkiem, że dasz radę sensownie ponazywać swoje składowe. Staną się one teraz nowymi zmiennymi niezależnymi regresji. Bez ich nazwania nie dokonasz interpretacji wyników. A że PCA to tylko mechaniczna tranformacja danych, "mieszająca zmienność wspólną i swoistą", moze to nie być łatwe!
Z kolei w
EFA operujemy zredukowaną macierz kowariancji.
Co w niej redukujemy? Ano zmienność swoistą - bo po co nam ona? My szukamy tego, co "ładuje" zmienność WSPÓLNĄ, stojących za nią ukrytych zmiennych - czynników. Jak ją zredukować (usunąć)? Ano wiedząc, że hi2 = var(Xi) - var(Ui) oraz że Xi są zestandaryzowane, możemy napisać: hi2 = 1-var(Ui).
A gdzie mamy var(Xi) w macierzy korelacji? Ano na jej przekątnej - są tam współczynniki korelacji zmiennej z nią samą, czyli... jej wariancja. Ile ona wynosi? Po standaryzacji = 1. Jesli tam zamiast 1wpiszemy hi2 (równe 1-var(U)), to znaczy tyle, że od jej wariancji (1) odejmiemy zmienność swoistą (var(Ui) - czyli pozbyliśmy się jej z obliczeń. Wtedy C=A*A'. Znikł czynnik swoisty.
Tutaj operacje obliczeniowe są bardziej złożone, bo iteracyjne (do obliczenia zredukowanej macierzy Rred potrzeba zasobów zmienności wspólnej, do której potrzebujemy ładunków aij, które obliczymy z równania Rred=AA'.....). Metod wstępnego (startowego) oszacowania tych aij jest wiele, m.in. metoda triad, najwyższej korelacji, centroidalna i inne.
PS: to przy okazji skalowanie wymiarowe i analiza korespondencji to także PCA, tylko na danych mierzonych na skalach (także) jakościowych.
Ten post został edytowany przez Autora dnia 21.09.13 o godzinie 19:48