Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Kiedy na podstawie testu można wnioskować o zależności przyczynowo-skutkowej?

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Test nie mówi nam nic o zależności przyczynowo skutkowej, jedynie o zależności stochastycznej konkretnego zbioru zmiennych w konkretnym przypadku badawczym. To tylko liczby.

Badacz podejmuje decyzję na podstawie swej wiedzy na temat zjawiska, natomiast wynik testu stanowi jedynie podporę. Wynik testu mówi badaczowi "wynik, który osiągnąłeś, bardzo rzadko / często zdarzyłby się w idealnych warunkach przy danych założeniach". Jest mało/bardzo prawdopodobny. I to wszystko. Badacz, znając zagadnienie od strony fachowej i empirycznej (fizyka, chemia, biologia), sprawdza, czy jego doświadczenie nie przeczy osiągniętemu wynikowi i na tej podstawie wyciąga wnioski. A czasem przeczy - wtedy jest powód do kontynuacji badań w lepszego poznania zagadnienia i ustalenia, w którym miejscu model nawalił.

Coś może być istotne statystycznie, lecz kompletnie nieistotne klinicznie. Coś może być istotne klinicznie, lecz w danym przypadku nieistotne statystycznie. Być może opisane jest złym modelem.

Budowanie modelu jest procesem iteracyjnym, składają się na niego lata badań, eksperymentów, analiz statystycznych, badanie rozkładów, identyfikacja zmiennych ukrytych, zmiennych towarzyszących.

Statystyk zna pułapki, które na niego czyhają.

Zmienne ukryte + zmienne skorelowane + zmienne towarzyszące (wiąże się z brakiem dostatecznej wiedzy na temat badanego zjawiska - zbyt mała wymiarowość danych), zbyt małą liczebność, zbyt duża liczebność, reprezentatywność próby z populacji (a to przecież bardzo szerokie pojęcie, uwzględniające zróżnicowanie populacji, jej zmienność w czasie). Do tego niech dojdą problemy wynikające z "fizyczności" zagadnienia - a to zdarzenia wpływają na siebie mocno w czasie (tzw. efekt przenoszenia, widoczny dla delta t równego np. miesiąc, ale już nie rok, a czasem dokładnie odwrotnie), a to powodują skutki uboczne. Ba, wiek pacjenta się zmienia, więc model działania przyjęty dla danej grupy wiekowej nie musi być taki sam u pacjentów starszych bądź młodszych (skala liniowa dla wieku może być tutaj fatalną pomyłką!). Tak można wymieniać do wieczora.

Patrząc jedynie na wynik testów łatwo dojść do wniosku, że im większy rozmiar stopy dziecka, tym lepsza umiejętność czytania. Badacz zapomniał o zmiennej ukrytej "wiek", której uwzględnienie pokazałoby, że im dziecko starsze, tym ma większą stopę (rośnie), a z wiekiem coraz lepiej czyta.

Podobnież - wspomniana już przeze mnie skuteczność leku oraz stabilność odpowiedzi organizmu. Skuteczność leku klinicznie określa się nie tylko poprzez rozmiar indukowanych nim zmian, ale także szereg dodatkowych parametrów, np. stabilność odpowiedzi organizmu, skłonność do interakcji z innymi lekami, występowanie działań ubocznych leku, która prowadzi, w dalszym rozrachunku, do negatywnych efektów, które "zbijają" skuteczność leku.

Nieco inaczej sprawa wygląda przy badaniach eksploracyjnych, gdzie jeszcze być może brak wiedzy na dany temat i trudno zweryfikować wyniki analiz. Data Mining to niemal cała już osobna nauka, korzystająca ze statystyki, której narzędzia pozwalają "drążyć" dane w poszukiwaniu lokalnych wzorców i globalnych zależności, a problem chociażby punktów odstających lub braków danych czasem prowadzi do ważnego odkrycia (nieocenione usługi oddają tutaj np. drzewa klasyfikacyjne/regresyjne). Tutaj następuje odkrywanie wiedzy z danych. Ale nadal wiedza ta wymaga zweryfikowania przez eksperta. Inaczej - to tylko liczby.

Przy okazji http://www.mp.pl/artykuly/?aid=10525

Odpowiadając zaś jednym zdaniem na Pana pytanie - kiedy wiedza badacza mówi mu, że jeśli wynik danego testu w danych okolicznościach okaże się taki i taki, to istnieje zależność fizyczna, nie tylko matematyczna.Adrian Olszewski edytował(a) ten post dnia 04.03.10 o godzinie 10:48

konto usunięte

Temat: wnioskowanie o zależności przyczynowo-skutkowej

U mnie w firmie ktoś powiesił wykres zależności natężenia ruchu w internecie od temperatury powietrza :). Jest silna korelacja, przy czym duża temperatura wygania ludzi na dwór. To ogólna wiedza na temat zjawiska pozwala mówić o zależności przyczynonowo-skutkowej.

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Generalnie, z tego co mnie uczono, to przy wyciąganiu wniosków o zależnościach przyczynowo-skutkowych należy brać pod uwagę przede wszystkim następujące kwestie:

- Następstwo czasowe - skutek nie może poprzedzać przyczyny (to jasne)
- "Sztywność" zmiennych - zmienna, które nie ulega zmianom w czasie (lub ulega rzadko) nie może być (zazwyczaj) skutkiem mniej "szytwnej" zmiennej (na przykład płeć nie może być skutkiem wykształcenia).

Problem pojawia się w przypadku zmiennych latentnych i relacji przyczynowo-skutkowych między nimi:

- Przy ujęciu realistycznym zmienna latentna jest przyczyną przyjmowania określonych wartości przez wskaźnik (zawsze!) - vide analiza czynnikowa
- Przy ujęciu konstruktywistycznym (np. PLS, PCA) - przyjmowanie pewnych wartości przez wskaźnik jest przyczyną przyjmowania określonych wartości przez zmienną latentną (tu nie jestem pewien)
- Przy ujęciu operacjonalistycznym (np. skale addytywne) - zmienna latentna jest skutkiem wskaźnika (zawsze).

Oczywiście w bardziej złożonych układach możliwe są bardzo zagmatwane schematy, w tym na przykład pętle, gdzie jakieś zjawisko może być pośrednio jednocześnie swoją własną przyczyną i skutkiem.

Przykład: zamożność -> wykształcenie -> zamożność.

Strasznie to pogmatwane, szczerze mówiąc :)

P.S. - Wojtku, artykuł będzie, tylko okazało się, że chyba mam go tylko w wersji papierowej i muszę go zeskanować.
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Przyznam, że pracuję w śrdowisku nie-statystyków i na początku mojej pracy starali się mnie przekonywać, że to właśnie ogólna wiedza na temat zjawiska pozwala wyciągnąć wniosek co do zależności przyczynowo-skutkowej.
Oczywiście na studiach nauczyłem się nieco statystyki (bo na takim kierunku studiowałem) ale nie nauczyłem się tam stosowania statystyki do wnioskowania o przyczynowości.
Z obecnej perspektywy wydaje mi się, że to właśnie statystyka (może jeszcze "machine learning" i probabilistyka) daje narzędzia i wyjaśnia jak należy hipotezy o przyczynowości weryfikować.

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Powstrzymaj globalne ocieplenie, zostań piratem :-))


Obrazek
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Sylwester R.:
Powstrzymaj globalne ocieplenie, zostań piratem :-))


Obrazek

;)

Temat: wnioskowanie o zależności przyczynowo-skutkowej

No i odgrzebałem przykład z mojej praktyki (nie cytat, inne wartości, ale obrazujący, z czym się musiałem borykać) :)

Wykres średniej odpowiedzi (powiedzmy, że są to średnie przyrosty stężenia jakiegoś parametru biochemicznego) na różne dawki leku u pacjentów onkologicznych z różnymi grupami rozpoznań nowotworu.


Obrazek
I co widzimy na pierwszy rzut oka? Im więcej w pacjenta ładują leku, tym mniejsza odpowiedź... Być może zbyt duża dawka leku hamuje odpowiedź (układ wchodzi w nasycenie)? A może... jest toksyczna?

O, może być toksyczna, zobaczmy po liczbie zgonów...
Obrazek

Chociaż coś ciekawego się dzieje przy największej dawce. Co prawda najmniejsza odpowiedź, ale i najmniej zgonów.

Nic z tych rzeczy :)

Odpowiedź uśredniono po wszystkich grupach rozpoznań. Po prostu tym najciężej chorym pacjentom podawano największe dawki leku, ale u nich poprawa i tak była niewielka.

W ostatniej grupie było najmniej pacjentów (najciężej chorych) i większość z nich zmarła.

Zaś w równie ciekawej grupie dla dawki 15ug - odpowiedź była wysoka, ale i pacjenci w połowie umarli. Być może mieli jakieś schorzenia towarzyszące, albo specyficzną grupę rozpoznania, która pozwalała "dobrze iść na lek", ale niestety, kończyła się szybką śmiercią.


Obrazek
Adrian Olszewski edytował(a) ten post dnia 04.03.10 o godzinie 11:26
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Dzięki za wszystkie odpowiedzi. Chodziło mi o uporządkowanie reguł, które są stosowane przy takim wnioskowaniu. W tym kierunku najbardziej zmierzała odpowiedź udzielona przez Pana Pawła.

Skąd sie bierze wniosek, że z korelacji pomiędzy X i Y (istotnej) nie można wnioskować o przyczynowości.
Nie można takiego wniosku wyciągać, bo jeżeli założymy że X wpływa na Y (X->Y), to możemy wykonać dwa testy P(Y|X)=P(X) oraz P(X|Y)=P(X). Jeżeli X->Y, to oba te testy będą istotne statystycznie (ale będą również istotne gdy Y->X i kilku innych sytuacjach min. tej przedstawionej przez Pana Adriana).

Jaki z tego wniosek istotność statystyczna jest warunkiem koniecznym aby zachodziła relacja przyczynowo-skutkowa pomiędzy badanymi zmiennymi ale nie jest to warunek wystarczający.

Tak przy okazji nie ma znaczenia, którą z badanych zmiennych uwzględnimy jako tzw. zależną a którą jako niezależną (dopóki nie mówimy o modelach wieloczynnikowych), przynajmniej dla wyciągania wniosków co do przyczynowości.

Przy zależnościach dla zmiennych dyskretnych taki wniosek jest oczywisty, ale dla dwóch zmiennych ciągłych nie zawsze tak jest (chodzi o to jak powinien wyglądać model po odwróceniu roli zmiennych).
Jeżeli zależność nie jest monotoniczna (U-shape lub jak niektórzy wolą J-shape) to jak powiniem wyglądać model po odwróceniu roli zmiennych?
Podam wam następujący przykład. Badałem zależność pomiędzy ryzykiem raka płuc a stężeniem selenu. Ryzyko w zakresie małych stężeń malało ale dla nawyższych stężeń rosło (nawet coś tam wymyślono aby to uzasadnić). Jeżeli ten model odwrócimy to jaki model dostaniemy: test t-Studenta (ANOVA), ale z nierównymi wariancjami w grupach.
Jednak ze względu na interpretację wyników ciekawszy jest nieco inny model. Model z mieszaniną rozkładów (przynajmniej w grupie osób z rakiem). Ten model ma ciekawą interpretację, można założyć, że część pacjentów chorych mogła zażywać preparaty zawierające selen.

Jeżeli macie ochotę, to możecie się pobawić w odwracanie roli zmiennych. Ja to zrobiłem i wychodzi to samo (próba nie może być ekstremalnie mała). Jeżeli wam nie wyjdzie, to być może nie są spełnione założenia co do któregoś modelu albo jeden z nich ma mniejszą moc.

Wracając jednak do głównego wątku rozważań. Aby umożliwić wnioskowanie o przyczynowości potrzebne jest dodatkowe założenie a mianowicie randomizacja interwencji. Na ten pomysł wpadł Fisher prawie 100 lat temu (w latach 20-tych).
Dlatego właśnie wszelkie korporacje badające leki robią badania randomizowane, ba nawet są czasopisma które tylko wyniki takich badań publikują.
Grzegorz Melniczak

Grzegorz Melniczak Have you tried
turning it off and
on again?

Temat: wnioskowanie o zależności przyczynowo-skutkowej

Pewnym sposobem na badanie przyczynowości w szeregach czasowych jest test przyczynowości Grangera - choć jak zwykle można znaleźć równie dużo argumentów za testem jak i przeciw.

A w ogóle to mi się przypomniał przykład ze studiów odnoście zależności zmiennych losowych i kowariancji: "Niech X będzie takie, że
P(X=-1)=P(X=0)=P(X=1)=1/3
oraz niech Y=X^2. Sprawdzić czy zmienne są zależne."

Większość oczywiście namiętnie policzyła, że cov(X,Y)=0. Tyle, że przecież Y=f(X), i jak student nie uważał na wykładzie to KLOPS:)

G.Grzegorz Melniczak edytował(a) ten post dnia 05.07.10 o godzinie 08:26
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: wnioskowanie o zależności przyczynowo-skutkowej

To jest chyba jedyny przypadek gdy "statystyk" (Clive Granger) otrzymał nagrodę Nobla (bo jako dziedzina matematyki nie jest brana pod uwagę w nominowaniu do tej nagrody).
Co do zależności zmiennych losowych ja pamiętam jedno twierdzenie (które można by było w tym przykładzie wykorzystać):
X jest niezależna od Y <=> G(X) jest niezależna od H(Y).
To jest też podstawa do stosowania wszelkich transformacji zmiennych losowych przy testowaniu niezależności.



Wyślij zaproszenie do