Wypowiedzi
-
A czy coś stoi na przeszkodzie, żeby zbudować model hierarchiczny? Literatura byłaby dość obszerna startując od Gelman, Hill (2006). Dane wydają mi się narzucać model hierarchiczny, a później trzeba by było pewnie poradzić sobie z kolejnymi problemami.
-
Ciekawe symulacje dot. współliniowości i ładna ilustracja reguły kciuka VIF < 4, chociaż wtedy wartość, którą Adrian wskazujesz, powinna być r=0,866, żeby wyprodukować tę łatwą do zapamiętania wartość VIF :) [ 1/(1-(0.866)^2) ~= 4]. Swoją drogą, zawsze traktowałem predyktor jako potencjalnie (ale niekoniecznie faktycznie) problematyczny, gdy VIF>2, co się ładnie przekłada na Twoje r~=0.7
Zwykle obok VIF-ów obserwuję po prostu zachowanie i wartości parametrów i ich błędów (choćby: przed/po włączeniu do modelu potencjalnie problematycznego predyktora). W problemach wielowymiarowych ciekawsze wydają mi się problemy związane ze współliniowością dla zmiennych pomocniczych reprezentujących zmienne kategorialne (np. dwa zestawy zmiennych pomocniczych definiujące dwa ortogonalne zestawy porównań planowanych mogą produkować skorelowane ze sobą wzajemnie zmienne pomocnicze; ich korelację też można minimalizować, ale to trochę inna sprawa). Tutaj wydaje mi się, że można dużo łatwiej przekombinować i uzyskać niestabilny model, choć niekoniecznie VIFy będą wysokie.
A odpowiadając bezpośrednio na pytanie Michała:
- minimalny kwadrat korelacji liniowej (zlikwidujmy sobie znak korelacji ujemnej) dla tego problemu wynosi... dowolnie mała wartość niezerowa!
przykład:
x1....x2....y
ɛ....K-ɛ....0
K-ɛ....ɛ....0
-ɛ...ɛ-K....1
K-1...-ɛ....1
gdzie ɛ = bardzo mała wartość większa od zero
a K = dowolna liczba większa od zero
x1 i x2: predyktory spełniające kryterium idealnej separacji zmiennej y i przy takim układzie danych niemal nieskorelowane ze sobą.
Wystarczy wygenerować sobie mniej więcej taki sprytny i bardzo sztuczny układ danych:
I jest i idealna separacja po obu predyktorach i korelacja między nimi tym bliższa 0, im punkty danych bliższe skrzyżowaniu wartości granicznych mieszczących się w średnich x1 i x2 (standaryzacja).
Z korelacją rangową ta sztuczka się jednak nie uda....
A co do sprzeczności:
Praktyczny problem rozumiem, ale mimo to sprzeczności pomiędzy precyzyjnym opisem badanego zjawiska a wymaganiami modelu statystycznego nie widzę. To model ma się nadawać do opisu zjawiska, nie odwrotnie.Mariusz T. edytował(a) ten post dnia 18.11.11 o godzinie 20:33 -
Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.
Jeśli jesteście lub byliście zaangażowani w takie projekty we własnych firmach lub pracując dla klientów, zachęcam do udziału w badaniu:
http://badania.iReward24.pl/swd2011/survey.php?src=82E...
Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). Wielu wróży data mining świetlaną przyszłość, mam jednak wrażenie, że ta wróżba nie zmienia się od kilkunastu lat a wykorzystanie zaawansowanych metod analiz w biznesie należy raczej do wyjątków. Jak data mining wygląda w praktyce w projektach, w których braliście udział? -
Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.
Jednym z celów programów lojalnościowych jest zbieranie danych, dlatego zachęcam do udziału w badaniu i wyrażenia opinii na temat potencjału danych gromadzonych w programach lojalnościowych i innych programach marketingowych. Jak wygląda praktyka analizy danych w waszych firmach?
http://badania.iReward24.pl/swd2011/survey.php?src=226...
Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). -
Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.
Jeśli jesteście lub byliście zaangażowani w takie projekty we własnych firmach lub pracując dla klientów, zachęcam do udziału w badaniu:
http://badania.iReward24.pl/swd2011/survey.php?src=C4C...
Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). Dosyć powszechne jest przekonanie, że znaczenie danych w przedsiębiorstwach rośnie. Jak wygląda to w praktyce w waszych firmach? -
Aby mieć możliwość przeczytania tego posta musisz być członkiem grupy Marketing
-
Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.
Jeśli jesteście lub byliście zaangażowani w takie projekty we własnych firmach lub pracując dla klientów, zachęcam do udziału w badaniu:
http://badania.iReward24.pl/swd2011/survey.php?src=7B0...
Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). CRM Analityczny stanowi jeden z filarów CRM, co najmniej wg podręczników. Jak wyglądało to w praktyce w projektach, w których braliście udział? -
Aby mieć możliwość przeczytania tego posta musisz być członkiem grupy Business Intelligence
-
Trochę czasu minęło, znalazłeś może odpowiedzi?
Ad. 1. Osobliwość w macierzy Hessiana napotkasz na pewno wtedy, gdy są puste komórki gdzieś na skrzyżowaniu wszystkich poziomów zmiennych niezależnych i zależnej. To ten przypadek?
Ad. 2. W tabeli testów -2LL masz w zasadzie tyle testów, ile jest szacowanych efektów. Jeśli masz interakcję czynników, to nie możesz nie uwzględnić w modelu efektów w niej zagnieżdżonych. Co do ogólnej zasady: tak samo jest w modelu liniowym. Co prawda testy efektów zagnieżdżonych w efekcie interakcji będą tam wyprodukowane, ale i tak (co do ogólnej zasady) interpretacji podlega tylko test dla interakcji.
Jeśli by się jednak postarać, nie ma problemu, żeby również w NOMREG uzyskać testy dla efektów głównych także wtedy, gdy jest uwzględniony efekt interakcji. Tyle, że trzeba zmienne jakościowe wprowadzić do modelu poprzez zmienne pomocnicze (w najprostszym przypadku dychotomiczne), które będą wprowadzone jako współzmienne, a nie jako czynniki. Swoją drogą ta strategia ma taką zaletę, że wymusza świadomą budowę postaci modelu (tego, co jest testowane w tabeli oszacowań parametrów).
HTH