Piotr Śmigielski

Piotr Śmigielski Starszy Analityk
Marketingowy

Temat: Wielkokrotna imputacja braków danych z jedną iteracją -...

Witam wszystkich,

Od jakiegoś czasu nurtuje mnie problem następujący. W SPSS instnieją dwie procedury pozwalające na imputację braków danych na poziomie bardziej wyszukanym niż imputacja średnią.

Szczególnie interesująca jest procedura imputacji wielokrotnej gdzie zaadaptowana została metodologia Rubina i podobne. Znający temat wiedzą, że ta procedura ma sporo zalet (ustawienie ograniczeń na zmiennych, tak żeby wartości iputowane były większe od zera, wybór kilku modeli itd. ).

Niestety dane, które są w spss'sie opracowywane będą służyły do budowy modelu w innym oprogramowaniu które nie wspiera możliwości korzystania z 3-5 wygenerowanych próbek w procedurze wielkokrotnej imputacji.

Moje pytanie jest zatem następujące - czy mogę wykorzystać procedurę wielkokrotnej imputacji (bo ma pewne zalety w postaci ograniczeń chociażby) i wygenerować jeden zbiór danych i analizować go w innym oprogramowaniu tak jakbym zastosował procedurę MVA (Analiza braków danych) i uzupełnił braki jednym z dostępnych modeli.

Bardzo proszę o pomoc - może znajdzie się ktoś, kto będzie wiedział jakie są algorytmy oprogramowane w obu procedurach !

Temat: Wielkokrotna imputacja braków danych z jedną iteracją -...

Cześć Piotrze, kawał czasu.
Nie tak prosto :) To, co proponujesz, kłóci się z ideą multiple imputation. Kilka zbiorów jest potrzebne, ponieważ parametry modelu z jednej próbki są losowo zakłócone a błędy standardowe parametrów z jednego modelu niedoszacowane: nie biorą pod uwagę niepewności informacyjnej związanej z imputacją braków.

Ale nie ma większego problemu, żeby zrobić imputację wielokrotną w SPSS czy gdziekolwiek indziej i realizować analizy w innym oprogramowaniu, które specjalnych procedur pod obsługę wielu zbiorów z MI nie ma. Potrzebujesz wyliczyć modele na wszystkich próbkach a później sam zagregować (pooling) wyniki z kilku modeli. Ale ten krok jest szczęśliwie dość prosty, w zupełności wystarczy Excel.

Wartość parametru modelu z metody wielokrotnej imputacji jest po prostu średnią parametrów modeli ze wszystkich próbek.

Intuicja za wyliczeniem błędu standardowego jest też dość prosta: uśrednij wariancję parametrów z modeli na próbkach i dodaj korektę w postaci wariancji pomiędzy oszacowaniami parametów z modeli na wielokrotnych próbkach. Spierwiastkuj i masz błąd standardowy. Dokładny wzór jest nieco bardziej skomplikowany:
S.E. zagregowany = sqrt(sum(SE^2)/M + ((M+1)/M)*(sum((B-avg(B))^2)/(M-1)) )
SE - błędy standardowe z poszczególnych modeli
B - wartości parametrów modelu z poszczególnych modeli
M - liczba prób w wielokrotnej imputacji
Czyli korekta wariancji to ((M+1)/M)*nieobciążony estymator wariancji dla parametrów z próbek.

Teraz już tylko potrzebujesz policzyć sobie testy albo przedziały ufności z rozkładu t i gotowe.
Maciej B.

Maciej B. Doktorant

Temat: Wielkokrotna imputacja braków danych z jedną iteracją -...

Hej,

tak masz opcję ile iteracji chcesz zastosować i możesz zapisać do zbioru. Pytanie czy jedna iteracja będzie wystarczająca i czy w ogóle jest sens stosować tę metodę.


Obrazek


Edit: Popieram to co napisał Pan MariuszMaciej B. edytował(a) ten post dnia 28.02.13 o godzinie 12:27



Wyślij zaproszenie do