Wypowiedzi
-
Nie tylko podział zbioru i topologia ma znaczenie. Są też inne wymierne czynniki, które często 'praktycy' tematu pomijają. Są to między innymi: zastosowany algorytm uczący (w tym sama metodyka algorytmu i jego parametry) oraz sama charakterystyka zbioru danych.
Sieci neuronowe są w pewnym stopniu czarną skrzynką i rzeczywiście nie do końca wiadomo co dzieje się w 'bebechach' (mechanicznie wiadomo), ale istnieją pewne metody przekształcania tego czegoś na coś bardziej strawnego :)
W zrozumieniu algorytmów, działania, etc. pomaga napisanie własnego programu np. prognozującego jakieś wielkości lub klasyfikującego za pomocą chociażby za pomocą sieci jednokierunkowej kilkuwarstwowej.
Pozdrowienia,Tomasz Kozdraj edytował(a) ten post dnia 27.03.09 o godzinie 23:04 -
Jaką metodą będzie dobierana próbka i co będziesz szacował/testował?
-
Krzysztof Łatuszyński:
Tak jak zawsze przy testowaniu hipotez statystycznych:
Jesli dla
H0: dwa rodzaje morfiny daja te same progi bolowe
p-value bedzie wystarczajaco male, to H0 mozna odrzucic, bo liczac p-value uwzglednia sie liczebnosc proby n=7. Przy takiej liczebnosci proby przy wyznaczaniu rozkladu statystyki testowej nie mozna oczywiscie opierac sie na asymptotyce, tylko trzeba albo znac rozklad statystyki testowej albo p-value wyznaczac symulacyjnie.
Zgadzam się.
Ale rozmowa jest chyba bez sensu, bo pani Agnieszka nie jest zainteresowan odpowiedzia na swoje wlasne pytanie, a opis eksperymentu jest na tyle niedokladny, ze nie widomo jak zaprojektowac test.
W tym cała istota rzeczy. -
Krzysztof Łatuszyński:
- nie jest wzgledne, jest mierzone p-value.
Możesz rozwinąć w jaki sposób rozumiesz wartość p jako miernik różnic? -
Sieci neuronowe...Kolega pytał o metody nie wymagające zaangażowania w rachunki...Zakładamy zatem, że chce liczyć "na piechotę"
-
Tego czy są duże czy małe nie wiemy. Poza tym określenie wystarczająco duże jest dość względne.
-
Jeśli przyjmiesz, że zmienne w zadaniach mają rozkład normalny z podanymi średnimi i odchyleniami to przedmówcy mają rację co do metod :)
-
Chcesz mieć algorytm doboru czy wzory na liczebność próbki?
-
Czy ja dobrze rozumiem, że masz do czynienia z próbą zależną tj. ta sama próbka szczurów (n=7) w k okresach (k wyników dla tych samych osobników). Masz też czynnik substancja (2 różne substancje), tak?
Istotą weryfikacji jest zatem uzyskanie informacji czy te substancje dają istotnie różne progi bólowe biorąc pod uwagę okresy czasowe, zgadza się?
Przypomina to analogię problemów gdzie wykorzystuję się analizę wariancji (parametrycznej/nieparametrycznej) w przypadku prób powiązanych (zależnych). W tym przypadku próba jest bardzo bardzo mała i niestety nie będzie ona spełniała wymogów minimalnej mocy testu (jeżeli wyniki mają być traktowane poważnie). Taka próba nie będzie wystarczająca do uzyskania wiarygodnych wyników, tzn. istotność niektórych decyzji może być nieprawdziwa/decyzje testów mogą być błędne. Rozwiązanie to: dolosowanie osobników, wykonanie badań symulacyjnych (wygenerowanie wyników z danego rozkładu) - w przypadku takiego badania (biologia/medycyna) może nie mieć uzasadnienia, inne (w tej chwili nie mam weny).Tomasz Kozdraj edytował(a) ten post dnia 03.03.09 o godzinie 22:34 -
Co to znaczy dobre wyniki prognostyczne?
Poza tym zależy co chce się prognozować i na jaki okres. Od zachowania zjawiska będzie zależeć dobór metod. -
Kluczową sprawą o której nikt chyba nie wspomniał jest kwestia danych, a dokładniej ich częstotliwości.
Jeżeli wykorzystujesz dane dzienne to model ARCH może być w porządku (mówimy o log stopach zwrotu). W przypadku danych o większej częstotliwości już nie koniecznie. -
Cześć Jarek,
Ja, Jurek i jeszcze parę osób z LDZ.
Pozdr.
Tomek -
Może statconsulting w W-wie, ale nie jestem pewien...
Studia podyplomowe też mogą pomóc.
Ja jednak jestem zdania, że własne studia nad źródłami (literatura, etc.) są skuteczniejsze o ile ma się do tego zaparcie i czas. -
Jakość danych to sprawa kluczowa. Jak wrzucisz śmieci do nawet super uniwersalnego modelu, z super klasyfikacją to i tak otrzymasz śmieci. Zależy w jaki sposób są one trzymane i prezentowane przez HD. Generalnie nad poprawą jakości danych i ich dostosowywaniem (ukierunkowaniem na klienta: zmienne behawioralne, demograficzne, pozostałe) spędza się z reguły najwięcej czasu (mam na myśli tutaj olbrzymie zbiory).
Mówiąc wcześniej o modelach nie miałem na myśli jedynie regresji logistycznej oraz proporcjonalnego hazardu Coxa (i modyfikacji dla innych niż normalny rozkładów). Faktycznie drzewa, funkcje dyskryminacyjne, sieci neuronowe mogą się też sprawdzać jako klasyfikatory osób mogących zrezygnować z produktu/odejść.
Dobrym klasyfikatorem jest też naiwny klasyfikator Bayesa, choć trzeba spełnić pewne warunki, no i nie każde oprogramowanie ma ten algorytm i jego modyfikacje.
Pozdrawiam
Tomek -
Mowa o modelu przypominającym regresję logistyczną?
Nie ma według mnie jednego idealnego podejścia do modelowania churnu. Można to zrobić na zasadzie takiego właśnie modelu i jego modyfikacji oraz np. analizy 'przeżycia' klientów czyli szacunku p-stwa odejścia prawdopodobieństwa churnu po jakimś okresie czasu. Są też inne podejścia. -
Co do szkoleń SASowych to są one raczej ukierunkowane ściśle pod ich produkty. Pytanie czy chcesz rozszerzać wiedzę o samej metodologii czy też bardziej soft.