Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Drzewa klasyfikacyjne, lasy losowe

Witam, w tej chwili zacząłem poznawać narzędzie jakim są lasy losowe, podziały w węzłach przeprowadza się stosując bardzo proste reguły liniowe. Zatem zastanawiam się czy warto jest dodać do zbioru danych zmienne przekształcone nieliniowo na przykład interakcje pomiędzy zmiennymi : gdy x,y, to zmienne to do zbioru danych można dodać zmienną z=x*y. Czy stosowaliście takie podejście lub o nim czytaliście ? Jakim innym ciekawym transformacjom można poddać dane oraz jak wybrać zmienne którym je poddać ? Wiem, że taka procedura jest kosztowna obliczeniowo, ale w końcu można ją przeprowadzić tylko dla najbardziej istotnych zmiennych.

Mam jeszcze pytanie ogólne : jaki sposób można wykryć zmienne, które badane łącznie niosą więcej informacji, niż te same zmienne badane osobno ? Czyli (BladModelu|x,y,xy)<(BladModelu|x,y), gdzie xy to jakaś funkcja łącząca x i y, jeszcze konkretniej : czy do tego celu da się użyć jakichś miar stosując je do łącznej gęstości p(x,y) ? Gdy x i y są niezależne, to różnic pomiędzy lewą i prawą stroną nierówności (BladModelu|x,y,xy)<(BladModelu|x,y) będzie mała.
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: Drzewa klasyfikacyjne, lasy losowe

Kamil Bęczyński:
Mam jeszcze pytanie ogólne : jaki sposób można wykryć zmienne, które badane łącznie niosą więcej informacji, niż te same zmienne badane osobno ? Czyli (BladModelu|x,y,xy)<(BladModelu|x,y), gdzie xy to jakaś
> funkcja łącząca x i y, jeszcze konkretniej : czy do tego celu
da się użyć jakichś miar stosując je do łącznej gęstości p(x,y) ? Gdy x i y są niezależne, to różnic pomiędzy lewą i prawą stroną nierówności (BladModelu|x,y,xy)<(BladModelu|x,y) będzie mała.

Nie jestem pewny o jaki model zależności ci chodzi. Czy interesuje cię łączny wpływ x,y na inną zmienną z (sugerowałby to zapis (BladModelu|x,y)) czy też o zależność pomiędzy x i y?

konto usunięte

Temat: Drzewa klasyfikacyjne, lasy losowe

Kamil Bęczyński:
Witam, w tej chwili zacząłem poznawać narzędzie jakim są lasy losowe, podziały w węzłach przeprowadza się stosując bardzo proste reguły liniowe. Zatem zastanawiam się czy warto jest
Random forest wymyślił nieżyjący już Leo Breiman. Proponuję poszukać jego artykułów na google. Są naprawdę dobrze napisane. Znajdziesz w nich odpowiedź na wszystkie pytania, które zadajesz.
dodać do zbioru danych zmienne przekształcone nieliniowo na przykład interakcje pomiędzy zmiennymi : gdy x,y, to zmienne to do zbioru danych można dodać zmienną z=x*y. Czy stosowaliście takie podejście lub o nim czytaliście ? Jakim innym ciekawym transformacjom można poddać dane oraz jak wybrać zmienne którym je poddać ? Wiem, że taka procedura jest kosztowna
Artykuły Leo Breimana...
Mam jeszcze pytanie ogólne : jaki sposób można wykryć zmienne, które badane łącznie niosą więcej informacji, niż te same zmienne badane osobno ? Czyli
Artykuły Leo Breimana...

Do lasów losowych są dobre pakiety w R. Stosowałem je w ramach jednego z konkursów, w którym uczestniczyłem hobbystycznie. Z dobrymi skutkami.

Następna dyskusja:

Kurs Machine Learning - drz...




Wyślij zaproszenie do