Wypowiedzi

  • Mariusz Trejtowicz
    Wpis na grupie Data Mining w biznesie w temacie propozycja pomysłu do dyskusji
    14.12.2011, 11:31

    A czy coś stoi na przeszkodzie, żeby zbudować model hierarchiczny? Literatura byłaby dość obszerna startując od Gelman, Hill (2006). Dane wydają mi się narzucać model hierarchiczny, a później trzeba by było pewnie poradzić sobie z kolejnymi problemami.

  • Mariusz Trejtowicz
    Wpis na grupie Data Mining w biznesie w temacie Minimalna korelacja idealnych predyktorów...
    18.11.2011, 20:32

    Ciekawe symulacje dot. współliniowości i ładna ilustracja reguły kciuka VIF < 4, chociaż wtedy wartość, którą Adrian wskazujesz, powinna być r=0,866, żeby wyprodukować tę łatwą do zapamiętania wartość VIF :) [ 1/(1-(0.866)^2) ~= 4]. Swoją drogą, zawsze traktowałem predyktor jako potencjalnie (ale niekoniecznie faktycznie) problematyczny, gdy VIF>2, co się ładnie przekłada na Twoje r~=0.7

    Zwykle obok VIF-ów obserwuję po prostu zachowanie i wartości parametrów i ich błędów (choćby: przed/po włączeniu do modelu potencjalnie problematycznego predyktora). W problemach wielowymiarowych ciekawsze wydają mi się problemy związane ze współliniowością dla zmiennych pomocniczych reprezentujących zmienne kategorialne (np. dwa zestawy zmiennych pomocniczych definiujące dwa ortogonalne zestawy porównań planowanych mogą produkować skorelowane ze sobą wzajemnie zmienne pomocnicze; ich korelację też można minimalizować, ale to trochę inna sprawa). Tutaj wydaje mi się, że można dużo łatwiej przekombinować i uzyskać niestabilny model, choć niekoniecznie VIFy będą wysokie.

    A odpowiadając bezpośrednio na pytanie Michała:

    - minimalny kwadrat korelacji liniowej (zlikwidujmy sobie znak korelacji ujemnej) dla tego problemu wynosi... dowolnie mała wartość niezerowa!

    przykład:
    x1....x2....y
    ɛ....K-ɛ....0
    K-ɛ....ɛ....0
    -ɛ...ɛ-K....1
    K-1...-ɛ....1

    gdzie ɛ = bardzo mała wartość większa od zero
    a K = dowolna liczba większa od zero

    x1 i x2: predyktory spełniające kryterium idealnej separacji zmiennej y i przy takim układzie danych niemal nieskorelowane ze sobą.

    Wystarczy wygenerować sobie mniej więcej taki sprytny i bardzo sztuczny układ danych:


    Obrazek


    I jest i idealna separacja po obu predyktorach i korelacja między nimi tym bliższa 0, im punkty danych bliższe skrzyżowaniu wartości granicznych mieszczących się w średnich x1 i x2 (standaryzacja).

    Z korelacją rangową ta sztuczka się jednak nie uda....

    A co do sprzeczności:
    Praktyczny problem rozumiem, ale mimo to sprzeczności pomiędzy precyzyjnym opisem badanego zjawiska a wymaganiami modelu statystycznego nie widzę. To model ma się nadawać do opisu zjawiska, nie odwrotnie.Mariusz T. edytował(a) ten post dnia 18.11.11 o godzinie 20:33

  • Mariusz Trejtowicz
    Wpis na grupie Data Mining w biznesie w temacie Praktyka data miningu
    27.10.2011, 14:05

    Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.

    Jeśli jesteście lub byliście zaangażowani w takie projekty we własnych firmach lub pracując dla klientów, zachęcam do udziału w badaniu:

    http://badania.iReward24.pl/swd2011/survey.php?src=82E...

    Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). Wielu wróży data mining świetlaną przyszłość, mam jednak wrażenie, że ta wróżba nie zmienia się od kilkunastu lat a wykorzystanie zaawansowanych metod analiz w biznesie należy raczej do wyjątków. Jak data mining wygląda w praktyce w projektach, w których braliście udział?

  • Mariusz Trejtowicz
    Wpis na grupie Programy Lojalnościowe w temacie Praktyka analiz danych w programach lojalnościowych
    27.10.2011, 14:03

    Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.

    Jednym z celów programów lojalnościowych jest zbieranie danych, dlatego zachęcam do udziału w badaniu i wyrażenia opinii na temat potencjału danych gromadzonych w programach lojalnościowych i innych programach marketingowych. Jak wygląda praktyka analizy danych w waszych firmach?

    http://badania.iReward24.pl/swd2011/survey.php?src=226...

    Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist).

  • Mariusz Trejtowicz
    Wpis na grupie Analiza sprzedaży w temacie Praktyka analiz danych w biznesie
    27.10.2011, 14:01

    Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.

    Jeśli jesteście lub byliście zaangażowani w takie projekty we własnych firmach lub pracując dla klientów, zachęcam do udziału w badaniu:

    http://badania.iReward24.pl/swd2011/survey.php?src=C4C...

    Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). Dosyć powszechne jest przekonanie, że znaczenie danych w przedsiębiorstwach rośnie. Jak wygląda to w praktyce w waszych firmach?

  • Mariusz Trejtowicz
    Wpis na grupie Marketing w temacie Praktyka wykorzystania analizy danych w marketingu

    Aby mieć możliwość przeczytania tego posta musisz być członkiem grupy Marketing

  • Mariusz Trejtowicz
    Wpis na grupie CRM w temacie Praktyka wykorzystania analizy danych w CRM
    27.10.2011, 13:59

    Moja firma (iReward24, GK Comarch) razem z redakcją Marketingu przy Kawie organizuje badania specjalistów oraz menedżerów poświęcone wykorzystaniu danych w przedsiębiorstwach w Polsce. Badanie koncentruje się na zastosowaniach analizy danych w biznesie, w szczególności w marketingu, sprzedaży i CRM.

    Jeśli jesteście lub byliście zaangażowani w takie projekty we własnych firmach lub pracując dla klientów, zachęcam do udziału w badaniu:

    http://badania.iReward24.pl/swd2011/survey.php?src=7B0...

    Zgodnie z moją wiedzą to pierwsze badanie w Polsce poświęcone analizie danych (na skalę światową podobne przeprowadził np. niedawno The Economist). CRM Analityczny stanowi jeden z filarów CRM, co najmniej wg podręczników. Jak wyglądało to w praktyce w projektach, w których braliście udział?

  • Mariusz Trejtowicz
    Wpis na grupie Business Intelligence w temacie Praktyka wykorzystania danych w biznesie

    Aby mieć możliwość przeczytania tego posta musisz być członkiem grupy Business Intelligence

  • Mariusz Trejtowicz
    Wpis na grupie SPSS w temacie Osobliwości w macierzy Hessiana - NOMREG
    25.08.2011, 22:29

    Trochę czasu minęło, znalazłeś może odpowiedzi?
    Ad. 1. Osobliwość w macierzy Hessiana napotkasz na pewno wtedy, gdy są puste komórki gdzieś na skrzyżowaniu wszystkich poziomów zmiennych niezależnych i zależnej. To ten przypadek?
    Ad. 2. W tabeli testów -2LL masz w zasadzie tyle testów, ile jest szacowanych efektów. Jeśli masz interakcję czynników, to nie możesz nie uwzględnić w modelu efektów w niej zagnieżdżonych. Co do ogólnej zasady: tak samo jest w modelu liniowym. Co prawda testy efektów zagnieżdżonych w efekcie interakcji będą tam wyprodukowane, ale i tak (co do ogólnej zasady) interpretacji podlega tylko test dla interakcji.

    Jeśli by się jednak postarać, nie ma problemu, żeby również w NOMREG uzyskać testy dla efektów głównych także wtedy, gdy jest uwzględniony efekt interakcji. Tyle, że trzeba zmienne jakościowe wprowadzić do modelu poprzez zmienne pomocnicze (w najprostszym przypadku dychotomiczne), które będą wprowadzone jako współzmienne, a nie jako czynniki. Swoją drogą ta strategia ma taką zaletę, że wymusza świadomą budowę postaci modelu (tego, co jest testowane w tabeli oszacowań parametrów).

    HTH

Dołącz do GoldenLine

Oferty pracy

Sprawdź aktualne oferty pracy

Aplikuj w łatwy sposób

Aplikuj jednym kliknięciem

Wyślij zaproszenie do