Temat: Jak wygenerowanie rozkłady o zadanej kurtozie?
@Tomasz
A to akurat potrzebowałem na szkolenie dla lekarzy. Chodziło o ilustrację tego, jak mogą "rozkładać się dane" i wyłapywania odstępstw od normalności. Dla przykładu - jeden z powyższych diagramów, gdzie po lewej jest scatterplot, po prawej densityplot.
Przydaje się dla analizowania działania czujników pomiarowych i wykrywania wartości odstających (anomalii negatywnych jak np. indukowanie zakłóceń albo interesujących, np. nowych związków w analizie składu gazów), które trafią do "ciężkich ogonów". Fajnie można to zilustrować wygenerowaniem danych z rozkładu Cauchyego (dzięki jego własnościom dot. momentów).Z kolei np. równomierny rozkład wyników może świadczyć o małej selektywności czujnika, który na pewne wartości powinien dawać większą odpowiedź.
Poza tym przygotowuję do wrzucenia na GL taki mały artykulik-zajawkę dyskusji pt. "O zasadności, metodach i wnioskach płynących z "testowania normalności" (i nie tylko)", gdzie m.in. wspominam o różnych rodzajach odstępstw od normalności, jak radzi sobie z nimi CTG, o wpływie 3 i 4 momentu na "zbieżność CTG" (rozwinięcie f. gęst. prawd. w szereg Edgewortha) na badanie średnich i wariancji. Dalej piszę o testach normalności opartych o sk. i kurtozę (np. Jarque-Bera, D'Agostino-Perasona), gdzie dla małych prób, kiedy właśnie stwierdzenie normalności jest najbardziej potrzebne, dostajemy niezły rozjazd Sk/K od minus do plus. W końcu to już podnoszenie do 3 i 4 potęgi i stąd wynikają różne problemy: dla skośności to problem ze "stabilnością" wokół zera (nieustanna "rywalizacja o znak", z tego samego powodu średnia arytmetyczna jest wrażliwa na "przeciąganie wartości"), dla kurtozy - te same problemy co dla wariancji, tylko "do kwadratu".
I właśnie do takich eksperymentów potrzebowałem sobie generować rozkłady o różnej kurtozie.
A przy okazji:
> dane <- rnorm(10000)
> (sk <- skewness(dane))
[1] 0.002842078
> (kurt <- kurtosis(dane))
[1] -0.0179881
> (var <- var(dane))
[1] 0.9904761
> (m <- mean(dane))
[1] -0.003965533
.....
i efekty:
Pamiętam, że był artykuł, w którym z tego powodu, czyli silnej zależności od liczności próby, określono je mianem "worthless". Z drugiej strony - po to przyjęło się stosować reguły kciuka, że powyżej pewnej liczności (50?) skośność plus minus 0.4 nie stanowi problemu. Z kurtozą jest gorzej, natomiast wiadome jest, że często bardziej wymaga się symetrii rozkładów, niż mezokurtyczności.
@Piotr
W przypadku różnych funkcji generujących opierających się o momenty są pewne kombinacje obu parametrów, dla których algorytm się "wykrzacza". Np. że kurtoza musi być > skośność^2 + 1 (np. dla Sk=2, K>5). Przyjrzyj się także definicji funkcji generującej Johnsona. W jej przypadku dla K=3 (Ex=0) max |Sk| to 0.44. |Sk|=2 dostaniesz dla K=11.
Piotr J.:
Hehe to jest już sprawdzone, że masz dużą cierpliwość do tłumaczenia :-)
Fakt, ale z biegiem czasu mam jej coraz mniej...
Normalnie masakra jest w tym wątku jak niektórzy robią z siebie nie powiem kogo :-D
Ich święte prawo :] Chociaż nieco męczące jest, jak Ci się ktoś taki wetnie w dyskusję, a Ty, zamiast dowiedzieć się czegoś w interesującym Cię temacie, bawisz się w nauczanie początkowe kogoś, kto raz, że nie wykazuje
nadmiernych umiejętności czytania ze zrozumieniem, dwa - ma problemy natury emocjonalnej...
Adrian Olszewski edytował(a) ten post dnia 29.12.12 o godzinie 05:24