Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Dlaczego jest tak mało ofert pracy z R ?

Dlaczego jest tak mało ofert pracy z wyszczególnioną znajomością R ? Jedyne na co wiecznie trafiam, to SAS i SPSS. Szczególnie, że grupa użytkowników SAS na goldenline, jest o połowe niższa uzytkowników R, nie mówięc juz o liczbie wątków na ich forum.

konto usunięte

Temat: Dlaczego jest tak mało ofert pracy z R ?

Pętla sprzężenia zwrotnego :p. Wydziały o profilach społecznych uczą SPSS i SAS, bo ten jest stosowany w firmach. Z kolei firmy nie przechodzą na R, bo absolwenci go nie znają.
U mnie w pracy badacze pracują na SPSS. Ja znałem R-a, więc wolę jego używać. Przy tym mocno go forsuję i coraz więcej osób jest nim zainteresowanych.
Dodajmy, że przy dużych zbiorach danych ponoć R jednak ustępuje SASowi (ale ja na takich nie pracuję). Poza tym dla niektórych osób może być trudniejszy niż okienkowe programy.Tomasz Szmidt edytował(a) ten post dnia 17.09.09 o godzinie 21:09

Temat: Dlaczego jest tak mało ofert pracy z R ?

Pewnie z tego samego powodu, dla którego nie stał się standardem przemysłowym - braku jednolitego i wygodnego graficznego interfejsu i bałaganiarstwa. I piszę te bolesne słowa jako zakochany użytkownik R. Zakochany, ale rozsądnie.

Co do interfejsu - odkąd istnieje na Ziemi człowiek, w świecie informatyki istnieją zaciekłe batalie między zwolennikami konsoli i GUI. Jedni cenią konsolę za elastyczność pracy, możliwość definiowania własnych procedur i funkcji, stosowania najwymyślniejszych konstrukcji programistycznych (np. w zakresie selekcji danych, gdzie R jest mistrzem), a dodatkowo - dla szybko piszących na klawiaturze - szybkość pracy.

Drudzy cenią GUI za brak konieczności uczenia się niełatwej często składni, co również jest ważne dla sprawnej pracy, możliwość szybkiego przeszkolenia personelu (łatwiej jednak podać parametry w czytelnie opisane pola tekstowe, niż uczyć się nazw parametrów oraz wybrać potrzebne dane bez budowania z nich ramek, macierzy, stosów...)

Jest jeszcze trzecia droga - połączenie GUI z możliwością pisania własnych skryptów (Statistica na ten przykład, albo GRETL) dla tych sytuacji, gdy standardowe opcje w GUI nie wystarczą lub brak odpowiedniej procedury statystycznej.

A w R... Niestety, RExcel + RCommander albo TinyR to nie to samo, co jednak SPSS albo Statistica. O niebo lepiej, niż było, ale nadal w tyle.

O tym, że jest to potrzebne, świadczy fakt, że powstają kolejne pakiety do kolejnych zastosowań. A to model liniowy, a to Data Mining. Ale to wszystko są indywidualne, nie współpracujące ze sobą rozwiązania. Miło, że są, ale...

Co do bałaganiarstwa... może i jestem odosobniony w moich odczuciach, ale przeraziła mnie liczba funkcji robiących niemal to samo, rozproszona po wielu różnych pakietach (ba, różniących się od siebie wynikami, bo w jednej procedurze zastosowano jakąś poprawkę, a w innej - nie). Dodatkowo paskudny brak konsekwencji w przekazywaniu parametrów (do jakiej postaci skonwertować dane? Ramka? Stos? Macierz? ciągle konwersje, jak nie w lewo, to w prawo). I ciągle Help. Ja wiem, że z biegiem czasu człowiek się uczy składnie potrzebnych procedur, ale uważam, że moja pamięć jest jednak potrzebna do cenniejszych rzeczy, niż nauka 15 języka programowania :)

I mam ze wspomnianym bałaganiarstwem trochę przykrych doświadczeń, gdy próbowałem zaimplementować w C# bibliotekę "opakowującą" (wrapper) pewien zbiór podstawowych analiz (statystyki opisowe, transformacje, testy statystyczne). Przygotowanie uniwersalnego selektora danych było koszmarem.

Aby nie krytykować jedynie tego wspaniałego, pomimo wad, pakietu, dodam, że jest on świetny do zastosowań serwerów obliczeń - i to się wykorzystuje dość często (w mojej praktyce zawodowej kilka razy). Ale... Statistica też na to pozwala (co do innych pakietów, to niestety, nie wiem).

Zatem - jeśli ktoś:
- jest dopiero na dorobku i nie stać go na drogi jak jasna cholera soft,
- zna R na tyle, że umie w nim biegle programować
- potrzebuje wykonać złożoną analizę "wsadowo" (wiele różnych procedur, gdzie wyniki jednej decydują o wykonaniu kolejnych)
- tnie koszty :)
- chce wykorzystać R jako tani (bezpłatny) serwer obliczeń
- potrzebuje specyficznej procedury, której nie ma w "wiodących pakietach", ale - zwykle często jest w R (o tak, to skarbnica testów i procedur - i to z kodem źródłowym!)
- potrzebuje szybko zaprogramować jakąś procedurę, a nie chce mu się odpalać całego środowiska i klepać w mało jednak czytelnym (IMHO) Basicu (R ma dość przyjemną składnię, co nie znaczy, że lekką)

... to R jest dla niego jak znalazł. I sam z niego często korzystam, mając na podorędziu inne programy. R jest lekki, chodzi sobie spokojnie na moim netbooku 9" - mogę jechać w delegację z komputerkiem wielkości saszetki. I będę mógł na szybko wykonać wstępne analizy. Praktycznie nic więcej mi nie potrzeba (zwłaszcza odkąd powstał RExcel i RCmdr). Ale na tym koniec.

Ale jeśli ktoś ma już firmę, która nie oszczędza każdej złotówki, dostaje zlecenia na grube dziesiątki tysięcy złotych (to nie jest s-f), musi mieć "referencje co do narzędzia" (w/w pakiety komercyjne cieszą się pewnością wyników, a w R - niestety - zdarzają się pomyłki, o czym wie każdy, kto grzebał po listach dyskusyjnych... a to ktoś nie zastosował poprawki, a to czeski błąd, a to nie wiadomo, którego wariantu procedury autor użył - szperanie po książkach, szukanie wzorów), nie ma czasu na naukę języka programowania, to nie będzie raczej narzekał, że musi wydać te ....naście tysięcy złotych, tylko je wyda, zyskując pewność i łatwość obsługi.

Dokładnie to samo stało się w zakresie inżynierii oprogramowania. Nadal oczywiście korzysta się z assemblera, czystego C, ale wiodącymi pakietami są te, w których chodzi głównie o "składanie z klocków", wizualne programowanie (czasem wręcz dosłownie - vide Macromedia Authorware). Najpierw pisze się wydajne i zoptymalizowane pod rożnymi kątami "klocki", a potem się z nich, niemal wizualnie, buduje. Stąd nazwa - RAD - Rapid Application Development. I podobnie jest z analizą danych. Statistica, SPSS, GRETL (powoli, powoli, ale jednak do przodu) to takie RADy.

I pewnie dlatego właśnie R jest domeną świata akademickiego (gdzie ludzie jednak nie potrzebują "idiootopornych klikadeł"), ale potem, gdy owe ciało akademickie opuszcza mury uczelni, by zagłębić się w komercję (a liczy się CZAS i PEWNOŚĆ), przerzuca się jednak na komercyjne pakiety. Nie twierdzę, że to reguła, ale chyba jednak dominujący, jak sam zauważyłeś, scenariusz.
Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Dlaczego jest tak mało ofert pracy z R ?

Tomasz Szmidt:
Pętla sprzężenia zwrotnego :p. Wydziały o profilach społecznych uczą SPSS i SAS, bo ten jest stosowany w firmach. Z kolei firmy nie przechodzą na R, bo absolwenci go nie znają.
U mnie w pracy badacze pracują na SPSS. Ja znałem R-a, więc wolę jego używać. Przy tym mocno go forsuję i coraz więcej osób jest nim zainteresowanych.
Dodajmy, że przy dużych zbiorach danych ponoć R jednak ustępuje SASowi (ale ja na takich nie pracuję). Poza tym dla niektórych osób może być trudniejszy niż okienkowe programy.

Z tego co wiem, SAS jest całym środowiskiem, góruje nie tyle przy przetwarzaniu dużych plików, tylko po prostu dobrze sobie radzi z zarządzaniem plikami danych http://www.sas.com/technologies/dw/integration.html
S-Plus ma w tym zakresie możliwości SASa http://www.insightful.com/products/splusserver/default..., z tego co wiem, S-Plus jest przez największe zachodnie korporacje używany w trybie online - automatyczna reakcja na zdarzenia, więc musi być niezły. Może kiedyś wygryzie SASa. W sumie to naprawdę R nie ma szans na przebicie SPSSa z jednej strony, a SAS z drugiej, pewnie będzie się powoli rozprzestrzeniał wraz z jego użytkownikami, jednak więksi pracodawcy się nim nie zainteresują. W R najlepszy jest super przyjazny 4GL, nie to co ten SASowy, ale bibloteki dla zastosowań biznesowych nie są już takie dobre. Nawet z ekonometri jest trochę braków tak w porównani z np. STATĄ.Kamil Bęczyński edytował(a) ten post dnia 17.09.09 o godzinie 22:38

konto usunięte

Temat: Dlaczego jest tak mało ofert pracy z R ?

Adrian Olszewski:
(a liczy się CZAS i PEWNOŚĆ),

Oj różnie z tym bywa... Naprawdę zależy od zastosowań. Z praktyki znam sytuacje, kiedy SPSS oblicza coś w ślimaczym tempie (klasteryzacja), brakuje wcale niewyszukanej funkcji (choćby ważenie danych według rozkładów brzegowych), albo kiedy brak możliwości swobodnego operowania wynikami wywołań funkcji uniemożliwia sprawne wykonanie bardziej złożonych analiz. Dodajmy jeszcze niekompatybilność nowych i starych wersji, cenę za pakiety z nowymi funkcjami...

Temat: Dlaczego jest tak mało ofert pracy z R ?

Piszę przez pryzmat Statistici, SPSS nie znam, poza tym, co przy okazji wyczytałem w książkach o DM :)

R zawsze będzie lepsiejszy, bo to po prostu język programowania. Znasz wzór - zaprogramujesz - i masz. Cokolwiek by to nie było. Z poziomu języka programowania z danymi możesz zrobić co tylko zechcesz - w GUI tylko to, co udostępniono.

Brak narzutu GUI powoduje, że soft jest lekki, można go "spiąć" z innymi narzędziami.

Ale nie odważyłbym się siąść do kompleksowej analizy skuteczności terapii TYLKO z R, a uważam, że trochę go już znam :)

Może brak mi odwagi ;)

konto usunięte

Temat: Dlaczego jest tak mało ofert pracy z R ?

Tomasz Szmidt:
Adrian Olszewski:
(a liczy się CZAS i PEWNOŚĆ),

Oj różnie z tym bywa... Naprawdę zależy od zastosowań.

Moim skromnym zdaniem w przypadku zastosowań biznesowych w tej parze nacisk przesunięty jest trochę bardziej na pewność.

Komercyjne pakiety uznawane są za bardziej wiarygodne, a wyniki za ich pomocą uzyskane za bardziej pewne. Istnieją firmy i instytucje, które to gwarantują. Nawet w przypadku gdyby w jakiejś procedurze jednak był błąd to jest kogo pociągnąć za to do odpowiedzialności. R brakuje takich gwarancji.

Czas oczywiście również bardzo się liczy, ale powiedzmy sobie szczerze w przypadku decyzji o pozostaniu przy komercyjnych pakietach przyczyną nie jest, iż wykonują jakiś typ obliczeń szybciej lub w porównywalnym tempie co możliwa alternatywa.
Rafał Piszczek

Rafał Piszczek Prezes zarządu w
spółkach BioStat®,
DM Soft/MedFile

Temat: Dlaczego jest tak mało ofert pracy z R ?

Liczy się szybkość działań. A tych R nam nie daje. W biznesie robi się wiele masowych analiz, prostych porównań. A uczenie się R bądź uczenie R zespołu kosztuje (może nie bezpośrednio da się na złotówki to przeliczyć, ale kosztuje czas tych osób które są doświadczone, a czas = kasa).
Poza tym wynik musi być pewny, analiza kompleksowa a z R tak jak powiedział po części Adrian: dużo różnych kodów do wklepania, bibliotek i innego "szitu" który trzeba doisttalowywać.

R
Rafał Piszczek

Rafał Piszczek Prezes zarządu w
spółkach BioStat®,
DM Soft/MedFile

Temat: Dlaczego jest tak mało ofert pracy z R ?

Poza tym Panowie nie bierzecie pod uwagę aspektu komercyjnego:
to nie sam produkt daje przewagę.
Bo niby dlaczeg żelem znanej firmy XXX się smaruje więcej babć niż jakimś polskim odpowiednikiem czy maścią końską? Podpowiem ze nie dlatego że jest skuteczniejszy i leszy ale dlatego że jest podparty dużych rozmiarów akcjami komercyjnymi.
Reasumując:
nie wystarczy coś dobrego mieć, trzeba jeszcze mieć pomysł i duże środki żeby to: było user friendly (R zdcydowanie nie jest), były środki i pomysł na reklamę i promocję tego. Sukces w zasadzie każdego przedsięwzięcia biznesowego zależy moim zdaniem w ponad 50% od działań promocyjnych i reklamowych a nie od samego produktu.

pozdrawiam
Rafał Piszczek
Krzysztof Łatuszyński

Krzysztof Łatuszyński probabilista,
statystyk

Temat: Dlaczego jest tak mało ofert pracy z R ?

Rafał Piszczek:
Poza tym Panowie nie bierzecie pod uwagę aspektu komercyjnego:
to nie sam produkt daje przewagę.
Bo niby dlaczeg żelem znanej firmy XXX się smaruje więcej babć niż jakimś polskim odpowiednikiem czy maścią końską? Podpowiem ze nie dlatego że jest skuteczniejszy i leszy ale dlatego że jest podparty dużych rozmiarów akcjami komercyjnymi.
Reasumując:
nie wystarczy coś dobrego mieć, trzeba jeszcze mieć pomysł i duże środki żeby to: było user friendly (R zdcydowanie nie jest), były środki i pomysł na reklamę i promocję tego. Sukces w zasadzie każdego przedsięwzięcia biznesowego zależy moim zdaniem w ponad 50% od działań promocyjnych i reklamowych a nie od samego produktu.

pozdrawiam
Rafał Piszczek


R nie jest przedsiewzieciem biznesowym.

A to, ze klienci biznesowi ulegaja marketingowi, swiadczy tylko o ich glupocie.

A to, ze nauczyciele akademiccy (i w konsekwencji uczelnie) ucza pakietow komercyjnych w zamian za profity w stylu "przedstawiciela SASa" na uczelni, czy cos w tym stylu, swiadczy tylko o niskich pobudkach tychze.

A kwestia "pewnosci" i gwarancji, poruszana tu przez Panow jest smieszna. Pod warunkiem bledu, prawdopodobienstwo warunkowe, ze blad zostal zrobiony przez analityka, do prawdopodobienstwa warunkowego, ze jest blad w pakiecie, jest jak 1000 do 1, albo lepiej.

Jak firma chce miec pewnosc, to powinna zatrudniac solidnie wyksztalconych statystykow, a nie placic za pakiety z interfejsem dla inteligentnych inaczej.
Kamil Bęczyński

Kamil Bęczyński R, SAS, analizy

Temat: Dlaczego jest tak mało ofert pracy z R ?

>A kwestia "pewnosci" i gwarancji, poruszana tu >przez Panow jest smieszna. Pod warunkiem bledu, >prawdopodobienstwo warunkowe, ze blad zostal >zrobiony przez analityka, do prawdopodobienstwa >warunkowego, ze jest blad w pakiecie, jest jak >1000 do 1, albo lepiej.
>
>Jak firma chce miec pewnosc, to powinna >zatrudniac solidnie wyksztalconych statystykow, a >nie placic za pakiety z interfejsem dla >inteligentnych inaczej.

Błędy w implementacjach zdarzają się ciągle, a kto z bezpośrednich użytkowników R jest w stanie wychwycić pomyłki w bibliotekach napisanych raz w C a raz w Fortranie ? Ilu statystyków jest to w stanie zrobić ? Ilu osób testuje biblioteki R ? Z tego co pamiętam, może źle, ale w BUGS w ostatniej wersji było przynajmniej 10 ważnych poprawek(nie jestem pewien, nie mogłem teraz znaleźć listy naprawionych błędów).
Szkoda, że nie każdy pakie R ma rozszerzonego helpa, niektóre są naprawdę dobrze napisane.
Czy SAS to też pakiet dla inteligentnych inaczej ?

konto usunięte

Temat: Dlaczego jest tak mało ofert pracy z R ?

Kamil Bęczyński:
>Jak firma chce miec pewnosc, to powinna >zatrudniac solidnie wyksztalconych statystykow, a >nie placic za pakiety z interfejsem dla >inteligentnych inaczej.

Błędy w implementacjach zdarzają się ciągle, a kto z bezpośrednich użytkowników R jest w stanie wychwycić pomyłki w bibliotekach napisanych raz w C a raz w Fortranie ? Ilu statystyków jest to w stanie zrobić ? Ilu osób testuje biblioteki R ?

Powiem Ci, że znaleźliśmy jeden błąd i był on akurat w SPSS. To oczywiście o niczym nie świadczy. Zapewne środowisko R ma więcej błędów, bo po prostu jest o wiele bardziej rozbudowane. Tylko że pp. tych błędów wcale nie rozkładają się równo.

Poza tym Krzysztof ma rację, bo błędy analityków/badaczy są o wiele większym problemem. Jednak rzadko kiedy (przynajmniej w mojej branży) jedna analiza decyduje o wyniku. Jeśli w ciągu prac ich wyniki nie tworzą logicznej całości, to wtedy podejrzewa się błąd - w pierwszej kolejności u siebie.
Czy SAS to też pakiet dla inteligentnych inaczej ?

To jest tak samo jak z fotografią analogową i cyfrową. Czemu procent nieudanych zdjęć na negatywie jest mniejszy niż na karcie pamięci?
Chodzi o to, że wklepywanie poleceń wymusza myślenie. Zastanawiasz się cały czas co chcesz zrobić i jak. Mając GUI człowiek z lenistwa czasem najpierw coś zrobi, a potem pomyśli (albo i nie). Albo w ogóle nie wie co zrobił, bo było jako domyślna opcja.Tomasz Szmidt edytował(a) ten post dnia 18.09.09 o godzinie 10:06

Temat: Dlaczego jest tak mało ofert pracy z R ?

1. Wiele funkcji pakietu R ma też poustawiane domyślne opcje.

2. Gdy ktoś się bierze za poważną analizę, robi sobie jej scenariusz i dobrze definiuje, co będzie robił. A jak mu się nie chce, to bierze się za pielenie pietruszki, bo - np. w medycynie - takie pomyłki są obwarowane poważnymi odszkodowaniami i zerwaniem kontraktu. Podobnie jest w pisaniu oprogramowania. Programista już chce pisać, ale najpierw potrzebna jest analiza funkcjonalna i techniczna. i to, że programista "wymiata" nie ma tu większego znaczenia.

3. Inteligentnych inaczej - powinno pozostać bez komentarza, gdyby nie to, że ten argument staje się męczący. Te same argumenty padają w przypadku języka C i C#, czy Linuksa i Windowsa. C jest dla wymiataczy (bo już nawet C++ jest zbyt "przekombinowany"), a C# i Java dla idiotów - klikaczy, co to im się nie chce pamięci zwalniać i uczyć działania wskaźników (lameeeeria!), a okienka muszą projektować w "dizajnerze". W Linuksach pracuje niemal całe środowisko akademickie, a w Windowsach magistrzy po zaocznych...

Może trochę więcej pokory, Panie Krzysztofie, bo i to i to to są TYLKO narzędzia do wykonania pracy, a nie testy na inteligencję (jak język brainfuck). A czasem odnoszę wrażenie, że fakt posiadania jakiejś dodatkowej umiejętności (akurat niekoniecznie niezbędnej, raczej taki "ficzer") staje się powodem do traktowania siebie jak coolmana, a innych - jak... sam Pan napisał. I spotykam się z tym nagminnie, także w pracy zawodowej. Zauważ taką rzecz - wielu statystyków (albo uściślę od razu - wielu mi znajomych, być może jestem odosobniony w tym) zna zarówno R, Matlaba, Octave, Statistikę i SPSS, a do codziennej pracy wybierają te drugie narzędzia, wspierając się dopiero tymi pierwszymi - na zasadzie "Użyję podstawowego i łatwego w obsłudze narzędzia, a dopiero, gdy trafię na coś extra, użyję narzędzia bardziej zaawansowanego".

4. Co do linii poleceń - chociażby wykresy. Jak już wspomniałem, moja pamięć, obciążona wieloma kwestiami, nie ma ochoty uczyć się składni do rysowania siatki takiej czy innej, "ticków" na osiach i kilku osi. Wiem, że to wszystko jest, ale już wolę skopiować wyniki do Excela i tam wygenerować wykres. Ty, Krzystofie, być może jesteś w tej świetnej sytuacji, że nie musisz pamiętać składni wielu innych języków i środowisk. Ale nie każdy ma tak dobrze, zwłaszcza analityk albo inżynier IT, który dodatkowo wykonuje analizy statystyczne albo implementuje systemy przetwarzania danych. Czas. Pamięć. Te dwa zasoby stają się cenne w tym przypadku.

5. Co do błędów - nigdy Pan nie widział na forach pytań w rodzaju "dlaczego dostaję różne wyniki"? Gdyby facet nie przeprowadził dodatkowej analizy, nawet by nie wiedział, że tam było coś innego (a dotyczyło bodajże któregoś z testów post-factum jakiś czas temu. Pozostałe pakiety dawały spójną odpowiedź. Oczywiście, prawdopodobieństwo jest znikome, ale specyfika powstawania tego wielkiego dzieła OpenSource każe mi być ostrożnym. Wiem, że jest procent matematyków, którzy patrzą często z pogardą na kogoś, kto nie zna wszystkich możliwych wzorów i nie może sobie na szybko sprawdzić czy składnia metody jest OK (i po co?), ale niestety, nie-matematycy też są analitykami - chcą mieć pewność, że wyniki kontroli krzyżowej z innym analitykiem będą takie same, bez wyjaśniania sobie, której sumy kwadratów użyto w danym wzorze. W dokumentacji R trzeba się czasem naszukać takich informacji. CZAS.

Mam nadzieję, że mnie nie poniosły zbytnio emocje.Adrian Olszewski edytował(a) ten post dnia 18.09.09 o godzinie 10:44

konto usunięte

Temat: Dlaczego jest tak mało ofert pracy z R ?

Adrian Olszewski:
1. Wiele funkcji pakietu R ma też poustawiane domyślne opcje.

Tak, ale poziom niżej :). To są domyślne parametry w funkcjach. W SPSS domyślnie wywoływane są całe funkcje, które w R trzeba uruchomić świadomie (np. przy porównaniach wielokrotnych domyślnie wprowadzana jest poprawka Bonferroniego - w R trzeba zastanowić się jakiej poprawki użyć i świadomie ją wprowadzić)

2. Gdy ktoś się bierze za poważną analizę, robi sobie jej scenariusz i dobrze definiuje, co będzie robił. A jak mu się nie chce, to bierze się za pielenie pietruszki, bo - np. w medycynie - takie pomyłki są obwarowane poważnymi odszkodowaniami i zerwaniem kontraktu.

W badaniach społecznych/rynkowych pomyłki niosą mniejsze konsekwencje niż w Twojej branży (czy choćby mojej poprzedniej, związanej z niezawodnością silników turbinowych). Ale i tak trzeba ich unikać, stąd potrzeba odpowiedniej organizacji pracy.
4. Co do linii poleceń - chociażby wykresy. Jak już wspomniałem, moja pamięć, obciążona wieloma kwestiami, nie ma ochoty uczyć się składni do rysowania siatki takiej czy innej, "ticków" na osiach i kilku osi. Wiem, że to wszystko jest, ale już wolę skopiować wyniki do Excela i tam wygenerować wykres.

U mnie badacze też wolą Excela do wykresów. Zamiast SPSS :p.
Ty, Krzystofie, być może jesteś w tej świetnej sytuacji, że nie musisz pamiętać składni wielu innych języków i środowisk. Ale nie każdy ma tak dobrze, zwłaszcza analityk albo inżynier IT, który dodatkowo wykonuje analizy statystyczne albo implementuje systemy przetwarzania danych. Czas. Pamięć. Te dwa zasoby stają się cenne w tym przypadku.

A może nie jest dobrze, jeśli jedna osoba musi wszystko robić? Ja na początku sam przygotowywałem sobie dane. Potem stwierdziłem, że nie chce mi się pamiętać perla/awka, a skoro są osoby, które na codzień ich używają, to lepiej jeśli te osoby dostarczą mi dane (choć twierdzą, że to bardzo proste), bo przygotują te dane sprawniej i bez błędów.Tomasz Szmidt edytował(a) ten post dnia 18.09.09 o godzinie 11:29
Rafał Piszczek

Rafał Piszczek Prezes zarządu w
spółkach BioStat®,
DM Soft/MedFile

Temat: Dlaczego jest tak mało ofert pracy z R ?

Kamil Bęczyński:
>A kwestia "pewnosci" i gwarancji, poruszana tu >przez Panow jest smieszna. Pod warunkiem bledu, >prawdopodobienstwo warunkowe, ze blad zostal >zrobiony przez analityka, do prawdopodobienstwa >warunkowego, ze jest blad w pakiecie, jest jak >1000 do 1, albo lepiej.
>
>Jak firma chce miec pewnosc, to powinna >zatrudniac solidnie wyksztalconych statystykow, a >nie placic za pakiety z interfejsem dla >inteligentnych inaczej.

Błędy w implementacjach zdarzają się ciągle, a kto z bezpośrednich użytkowników R jest w stanie wychwycić pomyłki w bibliotekach napisanych raz w C a raz w Fortranie ? Ilu statystyków jest to w stanie zrobić ? Ilu osób testuje biblioteki R ? Z tego co pamiętam, może źle, ale w BUGS w ostatniej wersji było przynajmniej 10 ważnych poprawek(nie jestem pewien, nie mogłem teraz znaleźć listy naprawionych błędów).
Szkoda, że nie każdy pakie R ma rozszerzonego helpa, niektóre są naprawdę dobrze napisane.
Czy SAS to też pakiet dla inteligentnych inaczej ?

CIESZE SIE, ZE MOJE WYPOWIEDZI SA CZASEM ŚMIESZNE :)
WEŹ POD UWAGĘ, ŻE NIEKTÓRE OSOBY KTÓRE SIĘ TU WYPOWIADAJĄ SIEDZĄ W BRANŻY OD LAT (W TYM MOJA SKROMNA OSOBA, CZY OSOBA ADRIANA OLSZEWSKIEGO) ;-)

POZDRAWIAM
rp

Temat: Dlaczego jest tak mało ofert pracy z R ?

Tomasz Szmidt:
Adrian Olszewski:
1. Wiele funkcji pakietu R ma też poustawiane domyślne opcje.

Tak, ale poziom niżej :). To są domyślne parametry w funkcjach. W SPSS domyślnie wywoływane są całe funkcje, które w R trzeba uruchomić świadomie (np. przy porównaniach wielokrotnych domyślnie wprowadzana jest poprawka Bonferroniego - w R trzeba zastanowić się jakiej poprawki użyć i świadomie ją wprowadzić)

Zgadzam się, ale nie aż o takim poziomie domyślności myślałem :)
I wydaje mi się, że ktoś, kto bierze się za kombajn w rodzaju SPSS (ja go nie znam! :), miałem kontakt tylko ze Statistiką), to powinien mieć świadomość tego, co robi. Recenzent (czy to w publikacji, czy zleceniodawcy) wytknie braki tej wiedzy w pierwszych 5 minutach :)

Że jeszcze wrócę na chwilę do analogii z programowania - to, że w takim C# zwalnianiem pamięci zajmuje się Garbage Collector nie oznacza, że można spokojnie o tym zapomnieć i programować niechlujnie, bo się można boleśnie przejechać. Tam też dano tryb "unsafe", który pozwala pracować na wskaźnikach (analogia Statistica + VB / R). Co komu potrzeba w danej chwili. Kompromis - możliwości / czas wykonania. Wolność wyboru.

4. Co do linii poleceń - chociażby wykresy. Jak już wspomniałem, moja pamięć, obciążona wieloma kwestiami, nie ma ochoty uczyć się składni do rysowania siatki takiej czy innej, "ticków" na osiach i kilku osi. Wiem, że to wszystko jest, ale już wolę skopiować wyniki do Excela i tam wygenerować wykres.

U mnie badacze też wolą Excela do wykresów. Zamiast SPSS :p.

Miałem na myśli Statistikę :P :):) (to apropos tego nieszczęsnego espiesesa)

Ale wiesz, prawdziwy hardcore lubi.... ekhm ;)

A może nie jest dobrze, jeśli jedna osoba musi wszystko robić? Ja na początku sam przygotowywałem sobie dane. Potem stwierdziłem, że nie chce mi się pamiętać perla/awka, a skoro są osoby, które na codzień ich używają, to lepiej jeśli te osoby dostarczą mi dane (choć twierdzą, że to bardzo proste), bo przygotują te dane sprawniej i bez błędów.

Oczywiście, masz rację. Podobnie, jak programista nie musi być analitykiem (i nie powinien się zajmować analizami, chociaż powinien patrzeć co robi, a nie bezmyślnie klepać kod), a analityk - inżynierem (i nie powinien się tym zajmować, co nie znaczy, że taka wiedza nie jest przydatna, bo łatwiej mu się dogadać z inżynierem), a inżynier - z kolei programistą (on już swoje zakodował w życiu i ma umieć wyjść kilka poziomów abstrakcji wyżej). Dlatego właśnie w dużych firmach wprowadza się specjalizacje, podział kompetencji.

Ale to piszemy o sytuacji, gdy to jest główne zajęcie i można sobie pozwolić na taką specjalizację. U Ciebie - tak, masz swoich "czyścicieli danych" (i nie tracisz czasu na ten, jak by nie patrzeć, bolesny i złożony wątek), masz może swoich grafików, którym dasz tylko tabeli z danymi. Ale jeśli ktoś pracuje w kilku zawodach (a taka interdyscyplinarność jest obecnie często must_be), to musi oszczędniej gospodarować "zasobami", bo ma na głowie więcej. To naturalne, że szuka optymalnych rozwiązań, nie zawsze zależy mu na full-wypasie, grunt, że wie, GDZIE go szukać i w razie czego sobie doczyta / poradzi. I nazywanie takich ludzi "inteligentnymi inaczej", jak to określił Pan Krzysztof, jest IMHO nieco krzywdzące...

Nie wiem, czy jeszcze trzymamy się tematu, ale miejmy nadzieję na wyrozumiałość moda.Adrian Olszewski edytował(a) ten post dnia 18.09.09 o godzinie 14:01

Temat: Dlaczego jest tak mało ofert pracy z R ?

Pozwolę się nie zgodzić z tym, ze SAS lepiej się klika. Dobrze się w nim klika na poziomie do kilkuset rekordów. Potem już trzeba pisać skrypty. Wtedy można sobie radzić z milionami pomiarów.

Z tego co wiem, to R ma ograniczenie do 4 GB danych, a potem nie ma nic. SAS ma taką przewagę, że działa dopuki dysków na dane wystarczy.
Bogdan Taranta

Bogdan Taranta Business Solutions
Manager

Temat: Dlaczego jest tak mało ofert pracy z R ?

Pozwolę sobie dodać jeszcze swoje trzy grosze do dyskusji, bo mam wrażenie, że kilka spraw nie zostało jeszcze dość zaakcentowane.

Po pierwsze biznes potrzebuje rozwiązań, które pozwolą na wygodną pracę z wieloma źródłami danych przez wiele osób jednocześnie. Przepływ i dostęp do informacji i danych jest kluczowy, a R jest programem typowo klienckim. Brakuje takich mechanizmów jak biblioteki SAS, współdzielenie modeli i projektów data mining czy procesów gotowych.

R jest skierowany na indywidualną pracę na pojedynczych zbiorach danych, a istotą biznesu jest praca zespołowa i równoległe korzystanie z różnych, czasem bardzo złożonych źródeł. R wymaga, abym przetworzył sobie zbiory bezpośrednio na jednej lub kilku bazach danych, był w kontakcie z ich administratorami i developerami w sprawach modelu danych i uprawnień, wrzucił w jedno miejsce i (olaboga!) ściągnął na swoją stację roboczą, podczas, gdy np. w SAS źródła danych są przezroczyste i ich przetwarzanie wraz z analizą mogę umieścić w jednym procesie, który również spokojnie mogę współdzielić z innym pracownikiem. Tego brakuje mi w R, mimo, że jestem dość dobrym programistą PL/SQL. Na koniec wyprodukowanie i udostępnienie najlepiej on-line raportu oraz danych wynikowych w postaci np. OLAP, powinno dziać się w tle, nie angażując mnie prawie w ogóle.

Problemy R z wielkością zbioru też są frapujące, i chociaż można je obchodzić, to w przypadku wdrożeń w branżach, w których zbiory są standardowo gigantyczne, taka słabość to powód do wstydu.

Biznes wymaga supportu do wdrażanych rozwiązań, czyli konsultacji, know-how kupowanego z produktem, szkoleń, gwarancji i serwisu.
Jakość takiego supportu, jak to w usługach bywa, nie jest możliwa do oceny przed wdrożeniem - dlatego wielką rolę ogrywa doświadczenie, referencje i odpowiedzialność dostawcy, więc tutaj wygrywa w przedbiegach komercyjny system firmowany przez liderów rynkowych. Co więcej, menedżer, który decyduje się na wdrożenie takiego rozwiązania częścią ryzyka i odpowiedzialności dzieli się z dostawcą. Top management, który wcale nie musi rozumieć subtelności pomiędzy różnymi rozwiązaniami BI, taki układ postrzega o wiele lepiej, niż wdrożenie taniego (bo nic nie ma za darmo) produktu, za który nikt formalnie nie ręczy. Nie mówiąc już o tym, że duże wdrożenie to też zastrzyk finansowany na podreperowanie innych obszarów pracy działu, czyli podszkolenie pracowników czy wymiana sprzętu.

Każdy biznes uwielbia standardy, bo to pozwala minimalizować koszty szkoleń, korzystać z szerszego grona ekspertów, zarówno jeśli chodzi o pozyskanie i kwalifikowanie pracowników (!!!), jak i zewnętrznych konsultantów, obniżać ryzyka i równać z konkurencją, ułatwia integrację rozwiązań IT i adaptację do zmian technologicznych.

Dokładność i szybkość obliczeń, wygląd GUI, elastyczność i gracja języka czy dostępność procedur dla niestandardowych analiz, czyli aspekty o których niektórzy z Panów wspominali, wydaje mi się grać mniejszą rolę.

Mimo, że naprawdę bardzo lubię R, to mimo wszystkich swoich silnych stron, nie jest to system business intelligence, tylko sprawny kalkulator. A rynek raczej idzie w stronę albo poszerzania systemów BI o rozwiązania data mining (jak Oracle), albo w stronę rozszerzania narzędzi analitycznych o systemy do przetwarzania danych (jak SAS). Zatem, moim zdaniem, w obecnej formie R raczej się nie przebije na szerokie wody korporacyjnych zastosowań :)

Pozdrawiam,
Bogdan
Krzysztof Łatuszyński

Krzysztof Łatuszyński probabilista,
statystyk

Temat: Dlaczego jest tak mało ofert pracy z R ?

Adrian Olszewski:
3. Inteligentnych inaczej - powinno pozostać bez komentarza, gdyby nie to, że ten argument staje się męczący. Te same argumenty padają w przypadku języka C i C#, czy Linuksa i Windowsa. C jest dla wymiataczy (bo już nawet C++ jest zbyt "przekombinowany"), a C# i Java dla idiotów - klikaczy, co to im się nie chce pamięci zwalniać i uczyć działania wskaźników (lameeeeria!), a okienka muszą projektować w "dizajnerze". W Linuksach pracuje niemal całe środowisko akademickie, a w Windowsach magistrzy po zaocznych...

Może trochę więcej pokory, Panie Krzysztofie, bo i to i to to są TYLKO narzędzia do wykonania pracy, a nie testy na inteligencję (jak język brainfuck). A czasem odnoszę wrażenie, że fakt posiadania jakiejś dodatkowej umiejętności (akurat niekoniecznie niezbędnej, raczej taki "ficzer") staje się powodem do traktowania siebie jak coolmana, a innych - jak... sam Pan napisał. I spotykam się z tym nagminnie, także w pracy zawodowej. Zauważ taką rzecz - wielu statystyków (albo uściślę od razu - wielu mi znajomych, być może jestem odosobniony w tym) zna zarówno R, Matlaba, Octave, Statistikę i SPSS, a do codziennej pracy wybierają te drugie narzędzia, wspierając się dopiero tymi pierwszymi - na zasadzie "Użyję podstawowego i łatwego w obsłudze narzędzia, a dopiero, gdy trafię na coś extra, użyję narzędzia bardziej zaawansowanego".

Widze, ze Pana niechcacy rozdraznilem tym sformulowniem.

Ale nie to bylo moim celem, w tym skrocie myslowym, chodzilo mi o to ze:

1. Jak juz napisalem likelihood ratio, ze blad zostal popelniony przez analityka, a nie przez pakiet jest jak 1000 do 1, i nawet jesli R ma dziesiec razy wiecej bledow, i przy uzyciu R likelihood ratio jest 100 do 1, to ciagle nie ma to wiekszego znaczenia.

2. Nawet jesli analiza zostala wykonana dobrze w sensie numerycznym, to czesto jej jakosc z punktu widzenia metodologii statystycznej jest fatalna. Bardzo lagodnie oceniajac dotyczy to co trzeciej pracy w ktorej sa analizowane dane np w prasie medycznej (czasopismach naukowych z listy ISI, unawanych za dobre).

3. W zwiazku z tym, jesli instytucja chce podniesc jakosc swoich analiz, to powinna zainwestowac w dobrze wyksztalconych statystykow, ktorzy beda lepsz gwarancja pewnosci. Jednoczesnie moga uzywac darmowego R jesli sa klopoty z budzetem...

4. Tymczasem praca statystyka w tym kraju jest konsekwentnie lekcewazona. Ludziom sie wydaje, ze statystyk to taki ktos, kto przewala tabelki w excelu, w najlepszym wypadku przewala jakas baze danych w jakims programie do przewalania jakiejs bazy danych, ewentualnie klika i robi wykresy w jakims programie do klikania i robienia wykresow. Sam bylem (przez miesiac i o miesiac za dlugo) w instytucji, ktora badala koniunkture i w tej instutucji pewien idiota od badania koninuktury wpadl na pomysl, zeby do losowania firm do badania koniunktury przyuczyc swoja KAWIARKE! Bylo to z 7 lat temu, ale mysle, ze akurat w tej instytucji niewiele sie zmienilo i byc moze on nadal chce ta albo inna kawiarke przyuczac.Krzysztof Łatuszyński edytował(a) ten post dnia 18.09.09 o godzinie 20:22
Krzysztof Łatuszyński

Krzysztof Łatuszyński probabilista,
statystyk

Temat: Dlaczego jest tak mało ofert pracy z R ?

Rafał Piszczek:
Kamil Bęczyński:
>A kwestia "pewnosci" i gwarancji, poruszana tu >przez Panow jest smieszna. Pod warunkiem bledu, >prawdopodobienstwo warunkowe, ze blad zostal >zrobiony przez analityka, do prawdopodobienstwa >warunkowego, ze jest blad w pakiecie, jest jak >1000 do 1, albo lepiej.
>
>Jak firma chce miec pewnosc, to powinna >zatrudniac solidnie wyksztalconych statystykow, a >nie placic za pakiety z interfejsem dla >inteligentnych inaczej.

Błędy w implementacjach zdarzają się ciągle, a kto z bezpośrednich użytkowników R jest w stanie wychwycić pomyłki w bibliotekach napisanych raz w C a raz w Fortranie ? Ilu statystyków jest to w stanie zrobić ? Ilu osób testuje biblioteki R ? Z tego co pamiętam, może źle, ale w BUGS w ostatniej wersji było przynajmniej 10 ważnych poprawek(nie jestem pewien, nie mogłem teraz znaleźć listy naprawionych błędów).
Szkoda, że nie każdy pakie R ma rozszerzonego helpa, niektóre są naprawdę dobrze napisane.
Czy SAS to też pakiet dla inteligentnych inaczej ?

CIESZE SIE, ZE MOJE WYPOWIEDZI SA CZASEM ŚMIESZNE :)
WEŹ POD UWAGĘ, ŻE NIEKTÓRE OSOBY KTÓRE SIĘ TU WYPOWIADAJĄ SIEDZĄ W BRANŻY OD LAT (W TYM MOJA SKROMNA OSOBA, CZY OSOBA ADRIANA OLSZEWSKIEGO) ;-)

POZDRAWIAM
rp


To moze siedzi Pan za dlugo i czas na zmiane pokolen?

p.s. niech Pan wylaczy CAPS LOCK, bo oczy lazawia.

Następna dyskusja:

maksymalizacja funkcji - co...




Wyślij zaproszenie do