Temat: Istotność różnych korelacji.

Próbuję sobie uporządkować wiedzę na temat "kiedy jaka korelacja" w przypadku zmiennych dyskretnych. O ile uporządkowałem już nieco wiedzę, o tyle nie mogę znaleźć wzorów na istotność wszystkich przypadków :]

Jeśli w Waszych podręcznikach lub głowach znajdują się brakujące wzory, podzielcie się, proszę lub podajcie tytuł książki.

Tyle udało mi się ustalić:

Dla zmiennych dyskretnych i dychotomicznych uzyskanych z rozkładu normalnego
(Perfectly Precise, Normally Distributed, Real Numbers PPNDRN)

-------------------------------------------------------------
1. Korelacja wieloseryjna (polyserial) - jedna zmienna PPNDRN, druga dyskretna

Pakiet polycor - odpowiednia funkcja wylicza wartość wsp. korelacji i odchylenie std., ale bez p.value. Coś gdzieś kiedyś słyszałem, że dla tej korelacji iloraz wsp. korelacji do owego odchylenia ma rozkład z, więc dałoby się... tylko nie wiem, czy to prawda :)

EDIT:
Tak, tak właśnie wylicza się p-value dla korelacji - w oparciu o statystykę z:
http://www.tau.ac.il/cc/pages/docs/sas8/stat/chap28/se...

p.val = 2*pnorm(-abs(z)), gdzie z -
Obrazek

-------------------------------------------------------------
2. Korelacja polichoryczna - obie zmienne PPNDRN, ale obie
zdyskretyzowane na kilka grup.

p.val = 2*pnorm(-abs(z)), gdzie z - jak dla korelacji wieloseryjnej

-------------------------------------------------------------
3. Korelacja dwuseryjna (biserial) - obie zmienne PPNDRN, ale druga jest zdyskretyzowana na dwie grupy (mało / dużo)

Procedura i p.val - tutaj

Po kilku przekształceniach (dla sprawdzenia) mam postać zgodną z
tą w Sheskinie ("Handbook of parametric and nonparametric...")


Obrazek

Obrazek

Obrazek

-------------------------------------------------------------

4. Korelacja tetrachoryczna - obie zmienne PPNDRN, ale obie
dychotomiczne.

p.val na podstawie Handbook... Sheskina:

Obrazek

Obrazek

Obrazek

-------------------------------------------------------------
Dla zmiennych naturalnie dychotomicznych

1. Korelacja dwuseryjna punktowa (point-biserial) - jedna
zmienna PPNDRN, druga naturalnie dychotomiczna. Klasyczna korelacja Pearsona --> dla zmiennej dychotomicznej (ten sam wzór).

p.val jak dla korelacji Pearsona.

-------------------------------------------------------------
2. Korelacja wieloseryjna punktowa (point-polyserial) - jedna zmienna PPNDRN, druga dyskretna o rozkładzie jednostajnym.

p.val - nie mam pojęcia...

-------------------------------------------------------------
3. Współczynnik Fi Youle'a - korelacja oparta o Chi2 dla pary zmiennych dychotomicznych

p.val - "klasycznie" ze statystyki chi2 dla tablicy kont. 2x2

-------------------------------------------------------------
4. Rangowana dwuseryjna (Rank biserial) - jedna zmienna na
skali porządkowej, druga dychotomiczna.

Obrazek

p.val ze statystyki z:
Obrazek

-------------------------------------------------------------

PS: Czy tego wszystkiego powyżej nie załatwi po prostu analiza log-liniowa (będąca swego rodzaju testem post-factum dla tablic
kontyngencji)? (loglm, loglin)

PS: Taki sam temat założyłem na grupie użytkowników pakietu "R". Mnogość grup (także poświęconych statystyce) sprawia, że czasem nie bardzo wiadomo, na której z nich pisać... pewnie na najliczniejszej :)Adrian Olszewski edytował(a) ten post dnia 11.05.09 o godzinie 12:11