Tomek Szafrański

Tomek Szafrański stażysta, PTU S.A.

Temat: Porada dotycząca obróbki danych

Witam,

Poszukuję pozycji książkowych/sieciowych które w wyczerpujący sposób opisywałyby praktyczne aspekty obróbki statystycznej dużych zbiorów danych. Najchętniej w aspekcie zastosowań w ubezpieczeniach/bankowości. W szczególności interesuje mnie odpowiedź na pytania:
- co robić gdy w próbie pojawiają się dane błędne
- co robić gdy w próbie pojawiają się dane wykraczające w stosunku do pozostałych o rząd, dwa rzędy wielkości

Pozdrawiam,
Tomek
Wojciech R.

Wojciech R. Doktor nauk
ekonomicznych/analit
yk/statystyk/dydakty
k

Temat: Porada dotycząca obróbki danych

Panie Tomku,
standardową pozycją, przynajmniej dla mnie, jest "Statystyka w zarządzaniu" Amira Aczela. W zależności od programu, jaki Pan chce zastosować do obliczeń, każdy producent oferuje szereg manuali.
Moje doświadczenie mówi, że dane błędne należy raz jeszcze sprawdzić, najlepiej u źródła. Jeżeli to niemożliwe, to należy je albo wyłączyć z analizy lub w ich miejsce wstawić średnią, dominantę, medianę, czy też wartość innego estymatora. Podobnie czyni się z obserwacjami odstającymi. Oczywiście są to proste metody i istnieją metodologie bardziej wyrafinowane, jednak ich zastosowanie wymaga wiedzy i czasu.
No i oczywiście należy wziąć pod uwagę cel badania :)
Pozdrawiam,
Wojtek
Piotr Śmigielski

Piotr Śmigielski Starszy Analityk
Marketingowy

Temat: Porada dotycząca obróbki danych

Tomek Szafrański:
Hej Tomku - potwierdzam poprzednią wypowiedź. Najlepiej sprawdzić, co jest przyczyną powstawania braków danych i to wyeliminować. Może to być nieprawidłowo zbudowany formularz rejestracji klienta, w hurtowni danych często jest tak, ze większość procesów jest zautomatyzowana więc jeśli coś w firmie się zmieni stare skrypty powodują luki i błędne wartości.

No, a jak już nie ma możliwości uzupełnienia braków prawdziwymi informacjami musisz kombinować w google i trochę poczytać - śmiało można powiedzieć, że jest to odrębna gałąź statystyki:

http://scholar.google.pl/scholar?q=missing+value+analy...

Natomiast wiadomo, że 'z próżnego i Salomon nie naleje' więc przy większej liczbie missingów należy zachować ostrożność.
P.
Witam,

Poszukuję pozycji książkowych/sieciowych które w wyczerpujący sposób opisywałyby praktyczne aspekty obróbki statystycznej dużych zbiorów danych. Najchętniej w aspekcie zastosowań w ubezpieczeniach/bankowości. W szczególności interesuje mnie odpowiedź na pytania:
- co robić gdy w próbie pojawiają się dane błędne
- co robić gdy w próbie pojawiają się dane wykraczające w stosunku do pozostałych o rząd, dwa rzędy wielkości

Pozdrawiam,
Tomek
Konrad W.

Konrad W. Data scientist /
Data engineer / Web
Analyst

Temat: Porada dotycząca obróbki danych

Z zastępowaniem średnią po całości to raczej ostrożnie, bo powoduje to obciążenie większości statystyk i dopasowanie modelu może być przeszacowane. To chyba jedna z gorszych metod z tego co
mi wiadomo. Dobrą metodą jest zastępowanie takich błędnych wartości lub braków za pomocą średniej, ale z wartości "najbliższych sąsiadów", których obliczamy na podstawie innych,
mniej wybrakowanych zmiennych.Konrad W. edytował(a) ten post dnia 21.11.09 o godzinie 12:37

Temat: Porada dotycząca obróbki danych

Odezwij się do mnie na priv, myślę, że mógłbym cię wesprzeć literaturą.



Wyślij zaproszenie do