Kamil Bęczyński R, SAS, analizy
Temat: Drzewa klasyfikacyjne, lasy losowe
Witam, w tej chwili zacząłem poznawać narzędzie jakim są lasy losowe, podziały w węzłach przeprowadza się stosując bardzo proste reguły liniowe. Zatem zastanawiam się czy warto jest dodać do zbioru danych zmienne przekształcone nieliniowo na przykład interakcje pomiędzy zmiennymi : gdy x,y, to zmienne to do zbioru danych można dodać zmienną z=x*y. Czy stosowaliście takie podejście lub o nim czytaliście ? Jakim innym ciekawym transformacjom można poddać dane oraz jak wybrać zmienne którym je poddać ? Wiem, że taka procedura jest kosztowna obliczeniowo, ale w końcu można ją przeprowadzić tylko dla najbardziej istotnych zmiennych.Mam jeszcze pytanie ogólne : jaki sposób można wykryć zmienne, które badane łącznie niosą więcej informacji, niż te same zmienne badane osobno ? Czyli (BladModelu|x,y,xy)<(BladModelu|x,y), gdzie xy to jakaś funkcja łącząca x i y, jeszcze konkretniej : czy do tego celu da się użyć jakichś miar stosując je do łącznej gęstości p(x,y) ? Gdy x i y są niezależne, to różnic pomiędzy lewą i prawą stroną nierówności (BladModelu|x,y,xy)<(BladModelu|x,y) będzie mała.