Bogdan
Taranta
Business Solutions
Manager
Temat: propozycja pomysłu do dyskusji
Posiadam duży zbiór obserwacji opisanych zmiennymi X oraz kilkoma realizacjami zmiennej losowej Y dla każdej z nich. Liczba tych realizacji jest różna, od żadnej do kilkunastu, ale mogę założyć (1), że dla wszystkich obserwacji Y pochodzi z tej samej rodziny rozkładów, ale o różnych parametrach.Korzystając z wiedzy biznesowej mogę przyjąć również założenie (2), że dla obserwacji o zbliżonych cechach X, zbliżone są też rozkłady odpowiadających im Y.
CEL: chcę wyznaczyć dla każdej obserwacji pewne statystyki z jej rozkładu Y i np. przypisać każdej obserwacji takie Y', że P(Y>Y')<0.01 - czyli przypisać każdej obserwacji pewien nietypowo wysoki dla niej poziom Y.
PROBLEM: Problem polega na tym, że dla zdecydowanej większości obserwacji dysponuje zbyt mała liczbą realizacji Y, aby móc wyciągać sensowne wnioski o jej rozkładzie tylko na tej podstawie.
POMYSŁ: Dla każdej obserwacji znalazłem jej k-najbliższych sąsiadów w oparciu o cechy X. Następnie zebrałem dla nich wszystkie realizacje Y i korzystając z nich wyznaczyłem interesujące mnie parametry rozkładu. Opierając się o założenia (1) i (2) przyjmuję, że wyznaczona z tego metryka jest pewnym "dobrym" estymatorem dla szukanej wartości dla tej jednej obserwacji (klienta, rachunku itp...)
Rozwiązanie jest bardzo intuicyjne, ciekawy jestem Waszych opinii? Nie spotkałem się dotąd z takim podejściem, może Wam to się z czymś skojarzy - jakąś metodą, publikacją?