Piotr J.

Piotr J. Młodszy analityk

Temat: Jak wygenerowanie rozkłady o zadanej kurtozie?

Hehe to jest już sprawdzone, że masz dużą cierpliwość do tłumaczenia :-) Normalnie masakra jest w tym wątku jak niektórzy robią z siebie nie powiem kogo :-D

Wykład ciekawy, ale mam jedno pytanie. Chcę sobie wygenerowac rozkład o jakichś parametrach. Używam tej funkcji Johnsona co pokazałeś ale nie mogę uzyskać określonych kombinacji parametrów np. kurtoza 0 i asymetria np. 1. Dlaczego tak jest i jak to obejść?

konto usunięte

Temat: Jak wygenerowanie rozkłady o zadanej kurtozie?

Wątek ładnie się rozwinął, ale zastanawiam się: po co jest ta kurtoza?

Osobiście na studiach nie widziałem żadnych głębszych jej interpretacji, a w pracy - zero zastosowań. To może być słaby argument, bo od paru lat zajmuję się czymś innym, więc pytam z czystej ciekawości - używa ktoś tego i do czego?Tomasz S. edytował(a) ten post dnia 19.07.12 o godzinie 00:25

Temat: Jak wygenerowanie rozkłady o zadanej kurtozie?

@Tomasz
A to akurat potrzebowałem na szkolenie dla lekarzy. Chodziło o ilustrację tego, jak mogą "rozkładać się dane" i wyłapywania odstępstw od normalności. Dla przykładu - jeden z powyższych diagramów, gdzie po lewej jest scatterplot, po prawej densityplot.

Przydaje się dla analizowania działania czujników pomiarowych i wykrywania wartości odstających (anomalii negatywnych jak np. indukowanie zakłóceń albo interesujących, np. nowych związków w analizie składu gazów), które trafią do "ciężkich ogonów". Fajnie można to zilustrować wygenerowaniem danych z rozkładu Cauchyego (dzięki jego własnościom dot. momentów).Z kolei np. równomierny rozkład wyników może świadczyć o małej selektywności czujnika, który na pewne wartości powinien dawać większą odpowiedź.

Poza tym przygotowuję do wrzucenia na GL taki mały artykulik-zajawkę dyskusji pt. "O zasadności, metodach i wnioskach płynących z "testowania normalności" (i nie tylko)", gdzie m.in. wspominam o różnych rodzajach odstępstw od normalności, jak radzi sobie z nimi CTG, o wpływie 3 i 4 momentu na "zbieżność CTG" (rozwinięcie f. gęst. prawd. w szereg Edgewortha) na badanie średnich i wariancji. Dalej piszę o testach normalności opartych o sk. i kurtozę (np. Jarque-Bera, D'Agostino-Perasona), gdzie dla małych prób, kiedy właśnie stwierdzenie normalności jest najbardziej potrzebne, dostajemy niezły rozjazd Sk/K od minus do plus. W końcu to już podnoszenie do 3 i 4 potęgi i stąd wynikają różne problemy: dla skośności to problem ze "stabilnością" wokół zera (nieustanna "rywalizacja o znak", z tego samego powodu średnia arytmetyczna jest wrażliwa na "przeciąganie wartości"), dla kurtozy - te same problemy co dla wariancji, tylko "do kwadratu".
I właśnie do takich eksperymentów potrzebowałem sobie generować rozkłady o różnej kurtozie.

A przy okazji:
> dane <- rnorm(10000)
> (sk <- skewness(dane))
[1] 0.002842078
> (kurt <- kurtosis(dane))
[1] -0.0179881
> (var <- var(dane))
[1] 0.9904761
> (m <- mean(dane))
[1] -0.003965533
.....

i efekty:

Obrazek


Pamiętam, że był artykuł, w którym z tego powodu, czyli silnej zależności od liczności próby, określono je mianem "worthless". Z drugiej strony - po to przyjęło się stosować reguły kciuka, że powyżej pewnej liczności (50?) skośność plus minus 0.4 nie stanowi problemu. Z kurtozą jest gorzej, natomiast wiadome jest, że często bardziej wymaga się symetrii rozkładów, niż mezokurtyczności.

@Piotr
W przypadku różnych funkcji generujących opierających się o momenty są pewne kombinacje obu parametrów, dla których algorytm się "wykrzacza". Np. że kurtoza musi być > skośność^2 + 1 (np. dla Sk=2, K>5). Przyjrzyj się także definicji funkcji generującej Johnsona. W jej przypadku dla K=3 (Ex=0) max |Sk| to 0.44. |Sk|=2 dostaniesz dla K=11.
Piotr J.:
Hehe to jest już sprawdzone, że masz dużą cierpliwość do tłumaczenia :-)

Fakt, ale z biegiem czasu mam jej coraz mniej...
Normalnie masakra jest w tym wątku jak niektórzy robią z siebie nie powiem kogo :-D

Ich święte prawo :] Chociaż nieco męczące jest, jak Ci się ktoś taki wetnie w dyskusję, a Ty, zamiast dowiedzieć się czegoś w interesującym Cię temacie, bawisz się w nauczanie początkowe kogoś, kto raz, że nie wykazuje nadmiernych umiejętności czytania ze zrozumieniem, dwa - ma problemy natury emocjonalnej...Adrian Olszewski edytował(a) ten post dnia 29.12.12 o godzinie 05:24

konto usunięte

Temat: Jak wygenerowanie rozkłady o zadanej kurtozie?

Adrian Olszewski:
@Tomasz
A to akurat potrzebowałem na szkolenie dla lekarzy.

Ok, po prostu głośno zastanawiam się po co z tego robić szkolenie, zwłaszcza na dość podstawowym poziomie...
Przydaje się dla analizowania działania czujników pomiarowych i wykrywania wartości odstających (anomalii negatywnych jak np. indukowanie zakłóceń albo interesujących, np. nowych związków w analizie składu gazów), które trafią do "ciężkich ogonów".

A nie lepiej to robić korzystając wprost z dystrybuanty (dokładniej - kwantyli)?
Fajnie można to zilustrować wygenerowaniem danych z rozkładu Cauchyego (dzięki jego własnościom dot. momentów).

Nie rozumiem. Rozkład ten nie ma momentów, a więc także kurtozy czy skośności. Tzn. z próbki policzyć sobie zawsze można, ale to nie ma sensu...
o wpływie 3 i 4 momentu na "zbieżność CTG" (rozwinięcie f. gęst. prawd. w szereg Edgewortha)

Twierdzenie Berry-Esseen też? To ciekawe może być, choć raczej nie dla lekarzy ;).
testach normalności opartych o sk. i kurtozę (np. Jarque-Bera, D'Agostino-Perasona), gdzie dla małych prób, kiedy właśnie stwierdzenie normalności jest najbardziej potrzebne, dostajemy niezły rozjazd Sk/K od minus do plus.

Aha, rozumiem. Małe próby, pogoń za mocą testu... Widocznie mam skrzywienie z badań rynkowych, gdzie próby miałem wystarczająco duże i w razie potrzeby używałem zwykłego K-S, nie interesując się całą resztą testów.

Temat: Jak wygenerowanie rozkłady o zadanej kurtozie?

Tomasz S.:
Ok, po prostu głośno zastanawiam się po co z tego robić szkolenie, zwłaszcza na dość podstawowym poziomie...

Wiesz... "magiczne statystyki opisowe", nie sposób nie wspomnieć o "zapomnianym czwartym momencie". Po prostu przez lata zebrałem trochę oczekiwań względem takich szkoleń i wynikało z tego, że nawet, jak coś jest mało przydatne, ale "popularne", to trzeba o tym wspomnieć :) O kurtozie jest w każdej książce i na każdym chyba kursie, a jednak zwykle tak zdawkowo, że nagminnie się myli ludziom z wariancją albo "kojarzy dokładnie z niczym" - i potem pytają na kursach :)
A nie lepiej to robić korzystając wprost z dystrybuanty (dokładniej - kwantyli)?

Pewnie, że lepiej, to było teoretyczne uzasadnienie ;)
Ale po chwili googlowania znalazłem coś takiego:
Nie pytaj mnie o zasadność jej stosowania w tych pracach - pobieżnie rzuciłem okiem, wklejam jako ciekawostkę :)

http://www.ig.pwr.wroc.pl/~bartel/art/referat_do_trans...
http://www.cim.pw.edu.pl/kjemiel/docs/Diagnostyka_w_IT...
Nie rozumiem. Rozkład ten nie ma momentów, a więc także kurtozy czy skośności. Tzn. z próbki policzyć sobie zawsze można, ale to nie ma sensu...

O to to! Są rozbieżne -> ze wzrostem liczności próby ich wartości "wystrzelą". Ale właśnie łatwo z tego rozkładu (rcauchy) wygenerować próbę, gdzie pojawi się jakiś potwornie daleki outlier, który trafi do potężnie długiego ogona i kurtoza idzie w setki, skośność też.

Nie ma sensu, ale fajnie się nadaje do wizualizacji kurtozy i skośności :)
Twierdzenie Berry-Esseen też? To ciekawe może być, choć raczej nie dla lekarzy ;).

Tu akurat nie :) Chodziło mi o rozwinięcie gęstości w taki szereg, gdzie będzie widoczny zależny (zwłaszcza przy pierwszych 2 wyrazach) wpływ 3 i 4 momentu. Wynika z niego, że ich stosunek rośnie ze wzrostem n, dokładnie pierwiastek(n). I faktycznie - dla dużej kurtozy CTG znacznie szybciej powoduje zbieżność (niemal natychmiast) do rnorm niż dla skośności. Ładnie stąd wynika, dlaczego przy testach parametrycznych mówi się "niech rozkład będzie chociaż symetryczny" (nawet jednostajny, "U-shaped"- czyli beta(a=b=0.5), "UU", "UUUU"). Wyniki symulacji MC będą w artykule. Nic odkrywczego - samplowanie N prób o kolejnych zadanych licznościach, policzenie na nich średnich i sprawdzenie rozkładu tychże Shapiro, powtórka M razy policzenie odsetka odrzuceń H0.
Aha, rozumiem. Małe próby, pogoń za mocą testu...

Dokładnie. Ale i inne zagadnienia. Chociażby... brak kontroli błędu I rodzaju w sytuacji, gdy na podstawie wyniku testu normalności podejmuje się decyzję o dalszych krokach analiz.
Widocznie mam skrzywienie z badań rynkowych, gdzie próby miałem wystarczająco duże i w razie potrzeby używałem zwykłego K-S, nie interesując się całą resztą testów.

Medycyna. N=50? --> "o radości, iskro bogów!"
KS dla takich prób dla niektórych rozkładów to dramat z mocą
A co tam, wkleję wyniki już tutaj:

Badane rozkłady:

Obrazek

Moce:

Obrazek
Adrian Olszewski edytował(a) ten post dnia 20.07.12 o godzinie 14:40



Wyślij zaproszenie do