Bogdan Taranta

Bogdan Taranta Business Solutions
Manager

Temat: propozycja pomysłu do dyskusji

Posiadam duży zbiór obserwacji opisanych zmiennymi X oraz kilkoma realizacjami zmiennej losowej Y dla każdej z nich. Liczba tych realizacji jest różna, od żadnej do kilkunastu, ale mogę założyć (1), że dla wszystkich obserwacji Y pochodzi z tej samej rodziny rozkładów, ale o różnych parametrach.

Korzystając z wiedzy biznesowej mogę przyjąć również założenie (2), że dla obserwacji o zbliżonych cechach X, zbliżone są też rozkłady odpowiadających im Y.

CEL: chcę wyznaczyć dla każdej obserwacji pewne statystyki z jej rozkładu Y i np. przypisać każdej obserwacji takie Y', że P(Y>Y')<0.01 - czyli przypisać każdej obserwacji pewien nietypowo wysoki dla niej poziom Y.

PROBLEM: Problem polega na tym, że dla zdecydowanej większości obserwacji dysponuje zbyt mała liczbą realizacji Y, aby móc wyciągać sensowne wnioski o jej rozkładzie tylko na tej podstawie.

POMYSŁ: Dla każdej obserwacji znalazłem jej k-najbliższych sąsiadów w oparciu o cechy X. Następnie zebrałem dla nich wszystkie realizacje Y i korzystając z nich wyznaczyłem interesujące mnie parametry rozkładu. Opierając się o założenia (1) i (2) przyjmuję, że wyznaczona z tego metryka jest pewnym "dobrym" estymatorem dla szukanej wartości dla tej jednej obserwacji (klienta, rachunku itp...)

Rozwiązanie jest bardzo intuicyjne, ciekawy jestem Waszych opinii? Nie spotkałem się dotąd z takim podejściem, może Wam to się z czymś skojarzy - jakąś metodą, publikacją?

Temat: propozycja pomysłu do dyskusji

A czy coś stoi na przeszkodzie, żeby zbudować model hierarchiczny? Literatura byłaby dość obszerna startując od Gelman, Hill (2006). Dane wydają mi się narzucać model hierarchiczny, a później trzeba by było pewnie poradzić sobie z kolejnymi problemami.
Bogdan Taranta

Bogdan Taranta Business Solutions
Manager

Temat: propozycja pomysłu do dyskusji

Owszem, nie pomyślałem o modelach hierarchicznych, tym bardziej, że nigdy nie poznałem ich w praktyce.

Nie jestem tylko pewien, czy na pewno moje dane można tak przedstawić. Rozumiem, że każdą realizację zmiennej Y traktowałbyś jako obserwację, a do modelu wniósł hierarchię z oryginalnego zbioru. Oznaczałoby to jednak, że dla wszystkich Y w ramach jednej grupy są dokładnie te same wartości X. Bo X nie pochodzą z różnych, ale powiązanych ze sobą pomiarów, tylko są charakterystykami przypisanymi do obserwacji (klienta, rachunku itp...) która wygenerowała te realizacje Y-ków. We wszystkich przykładach modeli hierarchicznych, które widziałem, zarówno Y i X wykazywały pewną zmienność w ramach grup.

Czy na pewno takie podejście miałeś na myśli?

Temat: propozycja pomysłu do dyskusji

Tak. Y są różne i chodzi o określenie indywidualnych (poziom obserwacji w pierwotnym zbiorze) charakterystyk ich rozkładu przy niewystarczającej informacji pozwalającej na takie wnioskowanie case by case, zgadza się?

Jeśli sprowadzić by Twój przypadek do modelu liniowego Y=BX+int, specyfikacja wyrazu wolnego jako efektu losowego w obrębie dodaje założenie, że stała modelu może różnić się pomiędzy obiektami wyższej hierarchii. Specyfikacja odpowiednich parametrów B jako efektów losowych, pozwala im również różnicować się pomiędzy obiektami w wyższej hierarchii.

Czyli w tym przypadku: szacujemy średnią przewidywanego rozkładu Y dla każdej obserwacji z pierwotnego zbioru z dodatkowymi założeniami (tu następuje pożyczenie mocy statystycznej dla tego oszacowania z innych obserwacji):
- pozostałe parametry rozkładu są identyczne pomiędzy pierwotnymi obserwacjami,
- średnie rozkładów pochodzą z rozkładu normalnego.

Trudności o których pomyślałem na początku: zdaje się, że w Twoim przypadku te założenia nie będą trzymać. To ciągle będzie model hierarchiczny, tyle że nieco bardziej skomplikowany.


Podsumowując jednak: choć zwykle w modelach hierarchicznych rzeczywiście są cechy zróżnicowane na poziomie jednostek niższego stopnia hierarchii, nie jest to obowiązkowe.

Ale na pewno nie masz żadnych cech określających realizację zmiennej Y? Choćby porządek czasowy na start?
Bogdan Taranta

Bogdan Taranta Business Solutions
Manager

Temat: propozycja pomysłu do dyskusji

Dziękuję, teraz widzę to jaśniej. Właściwie idea pozostaje podobna - aby "pożyczyć" na potrzeby wnioskowania trochę brakującej zmienności Y. W przypadku modeli hierarchicznych będzie to zmienność z całej próby, w moim rozwiązaniu - zmienność "sąsiadujących" obserwacji. Pozostaje pytanie co lepsze?

Do tej pory nie widziałem praktycznych zastosowań modeli hierarchicznych w mojej pracy, teraz to się zmieniło. Niestety w tym konkretnym przypadku musiałbym przeformułować problem tak, aby wprowadzić sensowną zmienność zmiennych opisujących w ramach grup.

Ponieważ chcę wnioskować na temat ekstremów rozkładu Y, aby ocenić "nietypowość" przyszłych obserwacji - mógłbym użyć przedziału ufności dla prognozy kolejnej realizacji z modelu hierarchicznego. A to właśnie wymagałoby wprowadzenia sensownych zmiennych powiązanych z daną realizacją Y.Bogdan Taranta edytował(a) ten post dnia 15.12.11 o godzinie 09:42

Temat: propozycja pomysłu do dyskusji

Nie ma sensu teoretyzować, proponowałbym przetestować podejścia :)

Swoją drogą to ciekawe dlaczego modele hierarchiczne są raczej obce w biznesie. Na ten moment przychodzą mi do głowy zastosowania w analizach aktuarialnych. I to byłoby na tyle? A przecież w większości przypadków dane w biznesie są właśnie w jakiś sposób zorganizowane hierarchicznie: transakcje na kontach klientów w placówkach banku, transakcje na kartach lojalnościowych różnych członków rodziny w różnych sklepach, wiele zamówień tych samych klientów u różnych przedstawicieli handlowych, itd.
Bogdan Taranta

Bogdan Taranta Business Solutions
Manager

Temat: propozycja pomysłu do dyskusji

Sądzę, że w ogóle jest problem z "pomysłami" na zastosowania różnych metod w biznesie. Nie mam na myśli braku wiedzy statystycznej, braku chęci, czy nieznajomości narzędzi - ale albo braku inspiracji, albo rutyny, której sprzyjają też szkolenia/rozwiązania dostawców takich jak SAS, SPSS.

Może to jest miejsce na ciekawą propozycję szkoleniową, konferencję, czy chociaż temat do dyskusji na forum? Nie jest trudno znaleźć książkę czy szkolenie, na którym w zależności od oczekiwań pozna się każdą metodę, od regresji logistycznej przez sieci neuronowe po SVM. Ale gdzie szukać nowych inspiracji do ich wykorzystania w codziennej pracy?

Następna dyskusja:

Zapraszam do dyskusji :)




Wyślij zaproszenie do