Temat: Wrocławski Zlot Użytkowników R
Adrian Olszewski:
To wspaniale!
Nie będę ukrywał, że o tym problemie dowiedziałem się po raz pierwszy i chyba właśnie uświadamiam sobie jego powagę.
Z drugiej strony... po zlocie rozmawiałem jeszcze przelotnie (ciekawość nie dała mi się powstrzymać :) ) z dwoma statystykami - oni także o tym nie słyszeli. Nie wiem, jak na studiach matematycznych, ale na standardowych zajęciach ze statystyki na informatyce, na rożnych kursach, nawet na ekonometrii, raczej nie porusza się tych zagadnień... ot - standardowa procedura "od danych do modelu"... mniej lub bardziej rozbudowana.
Niestety. Moje inspiracje pochodzą z trzech serii dyskusji w następujących pismach:
- Journal of the Royal Statistical Society. Series A (Chatfield, 1995)
- Journal of the American Statistical Association (Raftery, Zheng, 2003)
- Econometric Theory (Leeb, Potscher, 2005)
Co ciekawe, idea pochodzi jeszcze z lat 30-tych XX wieku i jest oczywista dla (prawie) każdego, kto zajmuje się ekonometrią bayesowską (gdzie modele są zmiennymi losowymi). Wtedy sir Harold Jeffreys opublikował pierwsze wydanie swojego podręcznika Theory of Probability(tytuł słusznie podkreśla, że statystyka/ekonometria bayesowska to nic innego niż systematyczne stosowanie teorii prawdopodobieństwa).
Konsekwencje dla pierwszego i drugiego momentu estymatora parametrów po raz pierwszy pojawiły się z książce Edwarda Leamera - Specification Searches -
http://www.anderson.ucla.edu/faculty/edward.leamer/boo... .
Niepewność wyboru modelu na podstawie danych jest szczególnie duża w badaniach empirycznych wzrostu gospodarczego i że tak się wyrażę stamtąd przyszedłem (jestem ekonomistą).
Patrz np. Ley, Steel (Journal of Applied Econometrics, 2008).
I teraz nie bardzo wiem, co o tym myśleć. Wygląda na poważny problem. Po "kiego" liczyć te wszystkie błędy dotyczące parametrów, skoro błąd wynikający z przyjęcia złego modelu jest od nich większy. Z drugiej strony - w podręcznikach do statystyki "znane nazwiska" wprost uczą wyboru modelu na podstawie danych. Z trzeciej strony, jakoś tworzy się te analizy nie wspominając szczególnie o tym zagadnieniu - i jakoś to się "pi razy drzwi" zgadza z doświadczeniem lekarzy... Przecież w znacznej liczbie przypadków NIE znamy modelu. Chociaż fakt, miałem przykłady, że wpływ różnych czynników na badane zjawisko powodował, że chociaż dane powinny zachowywać się "wedle reguły X", to zachowywały się zupełnie inaczej. Nieraz wskazywało to na ciekawe zagadnienia medyczne...
Z teorii wiemy, że jeśli wybieramy model na podstawie danych i nie bierzemy tego etapu pod uwagę to m.in. niedoszacowujemy wariancję. W ogólności nie wiemy jak bardzo (nie ma ograniczenia górnego). Będąc bardziej dokładnym należy powiedzieć, że może się zdarzyć, że niepewność wyboru modelu jest mniejsza niż niepewność oszacowań parametrów, ale symulacje pokazują, że nie zdarza się to często.
Co prawda nie jestem matematykiem (i daleko mi do tego), ale proszę nie unikać żadnych formalizmów. Przykładowo ja, jeśli będzie trzeba, przysiądę i dotąd będę "grzebał" po "mądrych książkach", aż zrozumiem istotę zagadnienia i - co ważniejsze - jak (i czy jest to w ogóle możliwe?) się przed tym bronić.
Musi być matematyka, bo inaczej dyskusję można prowadzić wyłącznie na poziomie podstaw filozoficznych, które też są bardzo ważne. Będę starał się wyważyć jedno z drugim.
Tak więc proszę o kilka dni cierpliwości. Przemek wrzuci za chwilę moją prezentację z WZUR, ale chyba bardziej przystępna będzie jej wersja zmieniona. Będą do niej kody.
Pozdrawiam
Marek
Marek Wielgosz edytował(a) ten post dnia 08.09.08 o godzinie 10:54