konto usunięte

Temat: modele scoringowe

Witam
1) Jestem ciekaw czy i w jakich zastosowaniach uzywacie modeli scoringowych?
2) jezeli ich uzywacie to ktorej metodologi wyboru zmiennych niezaleznycch? (stepwise/bootstrap....)



Ja uzywam tego typu modeli (regresja logistyczna) do przewidywania zachowan klientow w kampaniach "direct marketing".

Jesli chodzi o sposob wyboru zmiennych to najczesciej uzywam techniki "stepwise".

Uzywam tych metod wiele lat i wydaje mi sie ze sa dosyc proste w uzyciu i bardzo skuteczne.

Pozdrawiam
Rafał Piszczek

Rafał Piszczek Prezes zarządu w
spółkach BioStat®,
DM Soft/MedFile

Temat: modele scoringowe

Modele regresji logistycznej są ogólnie stosowane i od lat uznane nie tylko do scoringu ale też do różnych innych zastosowań w innych dziedzinach. Mają taką wadę, że przy dużej liczbie zmiennych endogenicznych (czyli zmiennych independent) pojawia się współliniowość i w zasadzie taki model pokazywać może "byle co".

konto usunięte

Temat: modele scoringowe

Przy duzej liczbie zmiennych jest wieksza szansa pojawienia sie wspolliniowosci, ale z drogiej strony duza liczba zmiennych niezaleznych stwaza wieksze szanse na znalezienie odpowiednich zmiennych do modelu.

Wspolliniowosc to przeciez blad ktory analityk maze zaakceptowac lub nie podczas tworzenia modelu. Mozna temu skutecznie zapobiegac.

konto usunięte

Temat: modele scoringowe

Zgadzam się, że regresja logistyczna jest całkiem niezłą techniką. Z mojej perspektywy podstawowe zalety to stabilność i fakt, że zwraca rzeczywiste prawdopodobieństwa. Niemniej, znacznie częściej posługuję się tzw. drzewami decyzyjnymi - zwłaszcza C5.0 (Ross Quinlan). Algorytm daje zazwyczaj nieco lepszą predykcję niż regresja logistyczna. Poza tym, drzewa można czytać jak reguły "biznesowe" co daje rewelacyjne możliwości manewru w takich zagadnieniach jak crosseling, kiedy trzeba połączyć analitykę ze strategią marketingową, ograniczeniami kanałów kontaktu, doborem komunikatów do kampanii. Nie waham się używać C5.0 również w innych niż crosseling zagadnieniach.

konto usunięte

Temat: modele scoringowe

A, i jeszcze jedno. Dobór predyktorów to w przypadku moich projektów element dłuższego procesu opisywanego w metodologii CRISP-DM. W każdym razie nigdy nie pozwolę żadnej maszynce żeby za mnie decydowała;)) Może mi co najwyżej podpowiadać;)) Na poważnie, nie używam metod automatycznych, dopóki nie wyselekcjonuję grupy racjonalnych wskaźników, pozwalających na interpretację zjawiska. W trakcie selekcji wspieram się różnymi technikami: jakość danych, poziom skorelowania zmiennych, wizualizacje - to tak na początek. Czegokolwiek bym jednak nie stosował, zawsze największe zaufanie mam do metody zatytułowanej "łeb na karku".

Pozdrawiam

konto usunięte

Temat: modele scoringowe

o metodologi CRISP-DM nie slyszalem - musze poczytac...

Rowniez uzywam roznych technik badajacych jakosc zmiennych przed tworzeniem modelu ale zgadzam sie co do duzego znaczenia "metody na chlopski rozum"

poza tym stosuje transformacje roznego rodzaju ktore splaszczaja rozklady danej zmiennej

kiedys bawilem sie z interakcjami ale ostatecznie ich nie uzylem...

W przpadku mojego zastosowania kluczowe w regresji logistycznej jest
1) prawdopodobienstwo ktore potem mozna laczyc z danymi ekonomicznymi
2) mozliwosc interpretacji dzialania modelu


Natomiast drzewa decyzyjne stosuje rzadko czasem wykorzystuje je do tworzenia nowych zmiennych.

Pozdr.
Rafał Piszczek

Rafał Piszczek Prezes zarządu w
spółkach BioStat®,
DM Soft/MedFile

Temat: modele scoringowe

Panowie, wiadomo że trzeba kierować się zdrowym rozsądkiem.
Ale jak macie zbiór tysiąca predyktorów (potencjalnych zmiennych egzogenicznych) i trzeba "na wczoraj" przygotować raport to nie ma możliwości się bawić i trzeba coś z tego wyciągnąć rozsądnego. Rozważanie na piechotę wszystkich p=tysiąc zmiennych to jest mniej więcej (2^p) -1 możliwości(kombinacji). No i życzę powodzenia :):)

konto usunięte

Temat: modele scoringowe

Przepraszam Panie Rafale, nie chcę Pana urazić swoim pytaniem, ale jak Pan definiuje Data Mining? Mam wrażenie, że nie mówimy o tym samym. Ja znam niestety tylko takie definicje Data Miningu, w których mowa jest o wyszukiwaniu biznesowo użytecznych wzorców w olbrzymich zbiorach danych. Ważny jest zatem efekt, który można skonsumować. Efektem jest zatem realizacja kampanii (a nie raport). Ewentualnie dostarczenie skoringu typującego do kampanii. Ale to już problem kompetencji - kto ma wdrażać. (Oczywiście "kampania" to takie słowo wytrych, bo w istocie rzeczy chodzi po prostu o wdrożenie wiedzy do praktycznej realizacji, czegokolwiek by ta wiedza nie dotyczyła).

W każdym razie, dla mnie budowanie modelu zaczyna się już na etapie definiowania obszarów danych w hurtowni, które potencjalnie mnie interesują. A taki dobór obszarów danych mogę przeprowadzić tylko mając wyobrażenie na temat potencjalnych zależności. W późniejszym etapie skupiam się na odrzuceniu danych bezwartościowych (jakość,artefakty) i wyborze cech potencjalnie istotnych. W praktycznym sensie testuję różne modele, zwracając szczególnie uwagę na te o najwyższej skuteczności (one są najgroźniejsze).
Stosuję zasadę "brzytwy Okhama" i zasadę "cost effectiveness"

Pozwolę sobie jeszcze raz podkreślić rolę metodologii/metodyki. Bez uporządkowania procesu łatwo ponieść niepotrzebne koszty, np. "przemycić" do modelu dane bezwartościowe, co spowoduje niemożność wykorzystania modelu w praktyce.

Odjechałem nieco od zagadnienia skoringu, ale mam nadzieję, że mnie Panowie zrozumiecie. Dla mnie DM jest procesem, gdzie poszczególne etapy ściśle od siebie zależą.

Pozdrawiam
Rafał Piszczek

Rafał Piszczek Prezes zarządu w
spółkach BioStat®,
DM Soft/MedFile

Temat: modele scoringowe

No ale dlaczego akurat data mining? Czy modele logitowe i scoring=data mining? Nie będę teoretyzował ale chyba nie. Modele logistyczne nie zawsze muszą mieć zastosowanie biznesowe i modele te to nie tak od razu data mining, bardziej zblizone do ekonometrii i modeli ekonometrycznych, w sumie wydaje mi się że to tak jak model ekonometryczny ze zmienną zależną nieciągłą(nieilościową).

Ja weźmiemy sobie za cel stworzenie modelu wykrywającego pacjentów z jakimś zaburzeniem (upraszaczjąc: chorobą) to mamy jakiś tam cel naukowy, duży zbiór potencjalnych zamiennych niezależnych i celem jest znalezienie tzw. "markerów" schorzenia, zdefiniowanie ich w postaci modelu, podanie OR każdego markera, stworzenie modelu dającego w wyniku prawdopodobieństwo "schorzenia". I tutaj nie ma bezpośredniego przełożenia na "biznes". Jak ja bym zdefiniował data mining? hmm... tak samo, ale pomijając słowo "biznes". Biznes to tylko dobry klient data mining :) Data mining sam w sobie nie realizuje też kampanii.

A ciekawości poszukałem jak właściwie teoretycznie definiuje się data mining i faktycznie część definicji wprowadza słowo "biznesu" ale jest wiele ogólniejszych mówiących o automatycznym czy też półautomatycznych przetwarzaniu dużych zbiorów danych, tworzeniu modeli, poszukiwaniu nieznanych zależności.

np.
http://en.wikipedia.org/wiki/Data_mining



Wyślij zaproszenie do