Temat: Dobór zmiennych w metodzie Hellwiga

Muszę obliczyć taksonomiczny miernik rozwoju hellwiga lecz wcześniej muszę dokonać doboru zmiennych. W jaki sposób mogę sprawdzić które zmienne są istotne statystyczne(29 zmiennych)?? Proszę o pomoc

Temat: Dobór zmiennych w metodzie Hellwiga

Poszukaj w internecie tematów związanych z przykładowymi metodami statystycznymi:

- metoda Hellwiga selekcji zmiennych (dotyczy tylko związku liniowego) (jest na GL kod tej metody w języku R)
- regresja krokowa i kryterium informacyjne (ale z z poważnymi zastrzeżeniami
- lasy losowe
- drzewa (podział rekurencyjny)
- metoda MARS (Multivariate Adaptive Regression Splines)
- SVM (maszyny wektorów wspierających)

Dodatkowo, jeśli korzystasz ze środowiska R, dostępnych jest tam wiele narzędzi do wyboru cech, np. pakiet caret lub FSelector.

Przygotuj się też na to, ze każda metoda może zwrócić inny zbiór zmiennych. Taka analiza musi wiązać się z dogłębnym zrozumieniem badanego zagadnienia i opierać się także na doświadczeniu. Czasem pozornie mało istotna zmienna włączona do pewnego modelu diametralnie zmienia obraz sytuacji. Czasem włącza się mało istotne zmienne z powodów merytorycznych (np. w medycynie rozróżnia się istotność statystyczną od istotności klinicznej).
Maciej G.

Maciej G. Projektant /
Programista, Famor
S.A.

Temat: Dobór zmiennych w metodzie Hellwiga

Jeśli jesteś zainteresowany implementacją metody SVM (oraz innych metod z zakresu statystyki i "machine learning" ) w C# .NET to zobacz frameworki open source:
AForge.NET oraz Accord.NET.

Patrz linki:

https://code.google.com/p/aforge/

http://accord-framework.net/

https://code.google.com/p/aforge/

Używałem "SVM" z AForge.NET i porównywałem wyniki dla tych samych danych wejściowych z implementacją w MATLAB. Wyniki minimalnie się różniły, ale były to kosmetyczne różnice.

Zobacz jeszcze "Analizę Składowych Głównych" - metodę tą często łączy się z "SVM" (selekcjonuje się te czynniki, które niosą największą zmienność - wariancję) i dopiero te dane wysyła się na wejście metody "SVM".

Patrz linki:

https://pl.wikipedia.org/wiki/Analiza_g%C5%82%C3%B3wnyc...

http://pqstat.pl/?mod_f=test_pca

Pozdrawiam.
Maciej G.

Maciej G. Projektant /
Programista, Famor
S.A.

Temat: Dobór zmiennych w metodzie Hellwiga

Bartek G.:
Muszę obliczyć taksonomiczny miernik rozwoju hellwiga lecz wcześniej muszę dokonać doboru zmiennych. W jaki sposób mogę sprawdzić które zmienne są istotne statystyczne(29 zmiennych)?? Proszę o pomoc

Standardowo używa się do tego metody PCA - (Principal Component Analysis).
Patrz link:

https://pl.wikipedia.org/wiki/Analiza_g%C5%82%C3%B3wnyc...

Pozdrawiam.

Temat: Dobór zmiennych w metodzie Hellwiga

PCA może służyć do redukcji wymiaru danych, ale poprzez utworzenie składowych głównych i następnie wyboru jedynie kilku z nich spełniających określone kryteria (wyjaśniona wariancja - sumarycznie, kryterium wartości własnych i inne), natomiast nie robi nic ze zmiennymi wyjściowymi.

A składowe trzeba jeszcze umieć wyjaśnić, tj. nadać im sensowne znaczenie, co nie zawsze jest proste lub w ogóle możliwe.

Z tego powodu PCA Nie nadaje się do wyboru zmiennych wejściowych.

Natomiast jeśli już nic nie pomaga na współliniowość zmiennych, owszem, stosuje się PCA i dopiero składowe poddaje dalszej analizie, np. regresji. Tylko mamy wtedy problem własnie z interpretacją.Ten post został edytowany przez Autora dnia 16.01.16 o godzinie 20:49
Maciej G.

Maciej G. Projektant /
Programista, Famor
S.A.

Temat: Dobór zmiennych w metodzie Hellwiga

Adrian O.:
PCA może służyć do redukcji wymiaru danych, ale poprzez utworzenie składowych głównych i następnie wyboru jedynie kilku z nich spełniających określone kryteria (wyjaśniona wariancja - sumarycznie, kryterium wartości własnych i inne), natomiast nie robi nic ze zmiennymi wyjściowymi.

A składowe trzeba jeszcze umieć wyjaśnić, tj. nadać im sensowne znaczenie, co nie zawsze jest proste lub w ogóle możliwe.

Z tego powodu PCA Nie nadaje się do wyboru zmiennych wejściowych.

Natomiast jeśli już nic nie pomaga na współliniowość zmiennych, owszem, stosuje się PCA i dopiero składowe poddaje dalszej analizie, np. regresji. Tylko mamy wtedy problem własnie z interpretacją.

Dziękuję za sprostowanie.

Pozdrawiam.

Temat: Dobór zmiennych w metodzie Hellwiga

Ja mam to obliczyć w excelu i za bardzo nie wiem jak to zrobić

Temat: Dobór zmiennych w metodzie Hellwiga

Trzeba będzie albo kupić jakąś bibliotekę statystyczną do Excela, albo samemu napisać odpowiednie procedury w VBA. Będzie z tym masa roboty.

Ewentualnie podłączyć Excel do R i wykonać analizę w ten sposób.
Maciej G.

Maciej G. Projektant /
Programista, Famor
S.A.

Temat: Dobór zmiennych w metodzie Hellwiga

Adrian O.:

Ewentualnie podłączyć Excel do R i wykonać analizę w ten sposób.

Można też podłączyć Excela do frameworka Accord.NET (jest to proste) i skorzystać z gotowych metod ;)

Patrz ExcelReader.cs 4 Accord.NET
Linbk:

https://github.com/primaryobjects/Accord.NET/blob/maste...

http://accord-framework.net/

------------------------------------

BTW: Adrian, mój tok rozumowania dotyczący PCA był nastepujący:

1) Skoro kolega Bartek zadał takie pytanie, to pewnie nie ma dogłębnej znajomości modelu (nie do końca orientuje się jak interpretować występujące zmienne)

2) Pomyślałem skoro tak to niech weźmie wszystkie 29 zmiennych jako składowe główne i za pomocą PCA skoryguje, które są najbardziej istotne.

3) Może też wybrać kilka różnych kompletów składowych głównych np. 3 (mniej niż 29 dostępnych zmiennych) i zobaczy jak wygląda to po przepuszczeniu przez PCA. Na tej podstawie dowie się co nieco o budowie samego modelu,

Jeśli moje rozumowanie jest błędne to proszę popraw mnie. Z chęcią dowiem się więcej o stosowaniu tych metod.

Pozdrawiam.Ten post został edytowany przez Autora dnia 17.01.16 o godzinie 13:06

Temat: Dobór zmiennych w metodzie Hellwiga

Maciej G.:
1) Skoro kolega Bartek zadał takie pytanie, to pewnie nie ma dogłębnej znajomości modelu (nie do końca orientuje się jak interpretować występujące zmienne)

... to tym bardziej nie zinterpretuje składowych "poskładanych" ze zmiennych wejściowych. Utknie jeszcze bardziej.
2) Pomyślałem skoro tak to niech weźmie wszystkie 29 zmiennych jako składowe główne i za pomocą PCA skoryguje, które są najbardziej istotne.

PCA tworzy składowe główne ze zmiennych wejściowych. Po prostu "zwraca" nowe zmienne będące liniową kombinacją zmiennych oryginalnych. Mówiąc inaczej - przedstawia te same dane w nowej, "korzystniejszej bazie" (po to ta cała zabawa z poszukiwaniem wartości i wektorów własnych macierzy kowariancji).

Jeśli trudno jest zinterpretować zmienne wejściowe, to nie wyobrażam sobie interpretacji składowych.
3) Może też wybrać kilka różnych kompletów składowych głównych np. 3 (mniej niż 29 dostępnych zmiennych) i zobaczy jak wygląda to po przepuszczeniu przez PCA. Na tej podstawie dowie się co nieco o budowie samego modelu,

Niestety, nie rozumiem.Ten post został edytowany przez Autora dnia 17.01.16 o godzinie 18:07

Temat: Dobór zmiennych w metodzie Hellwiga

Dziękuję za wskazówki, ale czy nie prostszą metodą doboru zmiennych będzie parametryczna metoda zmiennych Hellwiga??

konto usunięte

Temat: Dobór zmiennych w metodzie Hellwiga

Bartek G.:
Dziękuję za wskazówki, ale czy nie prostszą metodą doboru zmiennych będzie parametryczna metoda zmiennych Hellwiga??
Przedestymacyjne metody doboru zmiennych - takie jak bazująca na korelacji liniowej Pearsona metoda Helwiga - to anachronizm, który nie ma uzasadnienia teoretycznego. Jeżeli mamy wątpliwości co do struktury przyczynowości to należy użyć podejścia bayesowskiego, w szczególności zaś metody BMA. Dla przypadku liniowego ma ona rozwiązanie analityczne, a implementacje numeryczne są dostępne (fortranowski kod Ley-Steel, pakiety dla środowiska R, pakiet dla programu gretl).

MB

Temat: Dobór zmiennych w metodzie Hellwiga

Marcin Jan B.:
Bartek G.:
Dziękuję za wskazówki, ale czy nie prostszą metodą doboru zmiennych będzie parametryczna metoda zmiennych Hellwiga??
Przedestymacyjne metody doboru zmiennych - takie jak bazująca na korelacji liniowej Pearsona metoda Helwiga - to anachronizm, który nie ma uzasadnienia teoretycznego. Jeżeli mamy wątpliwości co do struktury przyczynowości to należy użyć podejścia bayesowskiego, w szczególności zaś metody BMA. Dla przypadku liniowego ma ona rozwiązanie analityczne, a implementacje numeryczne są dostępne (fortranowski kod Ley-Steel, pakiety dla środowiska R, pakiet dla programu gretl).

MB

Dziękuję za wyjaśnienie

Następna dyskusja:

Dobór testów statystycznych




Wyślij zaproszenie do