Bartłomiej Głowacki

Bartłomiej Głowacki BI Support Manager

Temat: Hurtownia Danych - Baza Open Source

Mam pytanie do osób pracujących z bazami danych zoptymalizowanymi pod kątem raportowania. Sam mam doświadczenie w pracy z systemami opartymi na Teradacie, Oracle, SQL Serwerze. Firmy płacą kolosalne pieniądze za licencje i utrzymanie tych systemów. Jako że lubię szukać dziury w całym, zastanawia mnie czy ktoś próbował robić to samo w oparciu o bazy Open Source. Właściwie to najbardziej pasuje mi tutaj Postgre SQL

Na razie zostawmy temat kostek OLAPowych. Chodzi mi o głównie o hurtownie w stylu star-schema.
Marcin Tarapata

Marcin Tarapata Analityk/Tester

Temat: Hurtownia Danych - Baza Open Source

Trochę informacji na temat takich rozwiązań można zleźć w necie... http://www.datamation.com/data-center/50-top-open-sour...
Bartłomiej Głowacki

Bartłomiej Głowacki BI Support Manager

Temat: Hurtownia Danych - Baza Open Source

Dzięki za link, ciekawe zestawienie, ale takich zestawień widziałem już dużo. Pytanie czy któregoś z tych narzędzi próbowałeś i jak się sprawdziło.... ? Chodzi o praktyczną stronę, czy wysiłek związany z wdrożeniem rozwiązania open source opłaca się w porównaniu z komercją?
Daniel W.

Daniel W. Architekt ;)

Temat: Hurtownia Danych - Baza Open Source

Zawsze mnie zastanawia tylko jedna rzecz.
Jak zrobić backup kolejnego cuda pod hasłem open source DB.
Gdyż niestety większość softu do backupu działa tylko na komercyjnych rozwiązaniach.
Marcin Miga

Marcin Miga Programista. Po
prostu programista.

Temat: Hurtownia Danych - Baza Open Source

Daniel W.:
Zawsze mnie zastanawia tylko jedna rzecz.
Jak zrobić backup kolejnego cuda pod hasłem open source DB.
Gdyż niestety większość softu do backupu działa tylko na komercyjnych rozwiązaniach.
Jak to jak? Odpalasz pg_dump :)

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Daniel W.:
Zawsze mnie zastanawia tylko jedna rzecz.
Jak zrobić backup kolejnego cuda pod hasłem open source DB.
Gdyż niestety większość softu do backupu działa tylko na komercyjnych rozwiązaniach.

ROTFL
Bartłomiej Głowacki

Bartłomiej Głowacki BI Support Manager

Temat: Hurtownia Danych - Baza Open Source

co do backupu to chyba każda szanująca się baza ma w swoich narzędziach również backup

widzę że niezbyt wiele odpowiedzi się pojawiło :-/ w sumie w Polsce niewiele jest niezależnych firm robiących hurtownie, większość to korporacje działające na korporacyjnych platformach....
Daniel W.

Daniel W. Architekt ;)

Temat: Hurtownia Danych - Baza Open Source

No każda teoretycznie ma praktycznie widać to w realizacji.
Z Hurtowniami możesz mieć problem - gdyż nasi tzw. mistrzowie pracują dla zachodnich korpo.

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Może ludzie, którzy siedzą i robią zaglądają tu rzadziej niż raz na dwa dni. Nie wspominając już o tym, że nie ma obowiązku odpowiadania.
Co do tematu. Zależy co chcesz zrobić. Zbieranie danych w ilościach 100GB i więcej - potem przetwarzanie tego w sposób relacyjny - nie bardzo ma sens. No, chyba, że ktoś ma bardzo dużo czasu.
Mi najbardziej hadoop pasuje. PG jest fajny, ale bez dodatkowej babraniny nie nadaje się do tego zastosowania.

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Daniel W.:
No każda teoretycznie ma praktycznie widać to w realizacji.
Z Hurtowniami możesz mieć problem - gdyż nasi tzw. mistrzowie pracują dla zachodnich korpo.

W praktyce i tak trzeba wiedzieć jak działa, sprawdzać, weryfikować.
Różnica jest taka, że jak rozwiązanie kosztuje 2 bańki - 10% tego dla
admina, rocznie nie robi wrażenia.
Wydanie takiej samej kasy na fachowca, który zapewni dokładnie to
samo, na open source - to jest skandal normalnie :)
Bartłomiej Głowacki

Bartłomiej Głowacki BI Support Manager

Temat: Hurtownia Danych - Baza Open Source

Michał Z.:
Daniel W.:
Wydanie takiej samej kasy na fachowca, który zapewni dokładnie to samo, na open source - to jest skandal normalnie :)

To nie do końca tak działa :) myślenie firm często jest takie: mamy kumatych ludzi, którzy w niejednej technologii pracowali, jeśli czegoś im brakuje to są wstanie się douczyć. Na podstawowym poziomie sprawdza się to nieźle, niestety w pewnym momencie trzeba pobawić się w bardziej zaawansowany tuning, optymalizację. Startując od poziomu developera czy to SQL Server czy to Oracle... i tak trzeba to jakoś ogarnąć. Tu nasuwa się pytanie:
Czy Posgre jest o tyle bardziej skomplikowany od SQL Servera czy Oracla, że douczanie w tym kierunku nie ma sensu? Czy faktycznie bez wyspecjalizowanego fachowca nie da się tego zrobić?

Hadoop: trochę już o tym czytałem, pytanie czy w ogóle powinien być rozważany jeśli mam do dyspozycji jeden serwer i hurtownię ok 1TB

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Bartłomiej G.:
Michał Z.:
Daniel W.:
Wydanie takiej samej kasy na fachowca, który zapewni dokładnie to samo, na open source - to jest skandal normalnie :)

To nie do końca tak działa :) myślenie firm często jest takie: mamy kumatych ludzi, którzy w niejednej technologii pracowali, jeśli czegoś im brakuje to są wstanie się douczyć. Na podstawowym poziomie sprawdza się to nieźle, niestety w pewnym momencie trzeba pobawić się w bardziej zaawansowany tuning, optymalizację. Startując od poziomu developera czy to SQL Server czy to Oracle... i tak trzeba to jakoś ogarnąć. Tu nasuwa się pytanie:
Czy Posgre jest o tyle bardziej skomplikowany od SQL Servera czy Oracla, że douczanie w tym kierunku nie ma sensu? Czy faktycznie bez wyspecjalizowanego fachowca nie da się tego zrobić?

Hadoop: trochę już o tym czytałem, pytanie czy w ogóle powinien być rozważany jeśli mam do dyspozycji jeden serwer i hurtownię ok 1TB

To się nazywa PostgreSQL, albo Postgres. Nie ma czegoś takiego jak Postgre.

Douczyć się można wszystkiego. Nauczenie się optymalizacji i administracji postgresem jest tak samo trudne jak nauczenie się administracji Oraclem, MySQLem, MSSQLem. Weź pod uwagę, że wymaga to wiele nauki i czasu. Nie da się zamienić fachowca, który kilka lat tym się zajmuje, kilkoma studentami, którzy zaczęli czytać jakąś książkę. Tym bardziej, że przeważnie wszystko można zrobić na pięć różnych sposobów i w ogólnym przypadku każdy z nich jest tak samo dobry. W szczególnym przypadku dobre jest tylko jedno rozwiązanie, a które to jest wie właśnie ten fachowiec. Wie nie dlatego, że przeczytał książkę. Wie, bo przez ostatnie lata zaimplementował te wszystkie rozwiązania i wie jakie są ich dobre i złe strony. Takiego doświadczenia nie da się zastąpić kimś, kto zaczął czytać książkę.

Tak, rozważ hadoopa, skoro wszystko jedno od czego zaczniesz, a to już nieco znasz, to zacznij od tego. Akurat zacząłem z drugiej strony i do hadoopa nie dotarłem jeszcze. Wszystko jedno od czego zaczniesz, ważne żeby potem się uczyć czegoś innego.

PS) teraz jak to i tamto sobie przeczytałem, to wyszło na to, że jak zwykle napisałem tak, że chyba odpowiedziałem niewłaściwej osobie :(. Bartłomieju, nie bierz tego co napisałem do siebie, niech to będzie ogólny głos w dyskusji :)Ten post został edytowany przez Autora dnia 19.06.14 o godzinie 13:17
Bartłomiej Głowacki

Bartłomiej Głowacki BI Support Manager

Temat: Hurtownia Danych - Baza Open Source

Douczyć się można wszystkiego. Nauczenie się optymalizacji i administracji postgresem jest tak samo trudne jak nauczenie się administracji Oraclem, MySQLem, MSSQLem. Weź pod uwagę, że wymaga to wiele nauki i czasu. Nie da się zamienić fachowca, który kilka lat tym się zajmuje, kilkoma studentami, którzy zaczęli czytać jakąś książkę.

Nie mówimy o studentach, ale o ludziach, którzy te same tematy przerabiali w co najmniej dwóch innych technologiach (SQL Server i Oracle).
Tym bardziej, że przeważnie wszystko można zrobić na pięć różnych sposobów i w ogólnym przypadku każdy z nich jest tak samo dobry. W szczególnym przypadku dobre jest tylko jedno rozwiązanie, a które to jest wie właśnie ten fachowiec. Wie nie dlatego, że przeczytał książkę. Wie, bo przez ostatnie lata zaimplementował te wszystkie rozwiązania i wie jakie są ich dobre i złe strony. Takiego doświadczenia nie da się zastąpić kimś, kto zaczął czytać książkę.

Na prawdę rzadko spotyka się takiego fachowca, który przerobił już "wszystko". Ostatnio miałem genialny przykład. Nasza firma zatrudniła gościa z 20sto letnim stażem w SQL Server. Podrzucił on nam parę tipów w jaki sposób diametralnie przyspieszyć procedury ETL'owe. Tutaj indeks, tam partycja, tu coś o statystykach, generalnie tłumaczenie było bardzo mądre i bardzo wzbudzające zaufanie. Po zaimplementowaniu jego pomysłów okazało się, że szybkość systemu zmalała... Zaczął się wykręcać szczególnymi przypadkami itd. itp. Nie wątpię w jego doświadczenie ale nawet taka osoba musi czasem wygooglować rozwiązanie, jak też taka osoba często może nie mieć racji... więc nie przeceniałbym tutaj tego.
Dużo ważniejsze moim zdaniem jest to, kto kieruje pracą zespołu, jakie stosuje się metody rozwiązywania problemów i jak umiejętnie korzysta się z dostępnych publicznie źródeł informacji.
Tak, rozważ hadoopa, skoro wszystko jedno od czego zaczniesz, a to już nieco znasz, to zacznij od tego. Akurat zacząłem z drugiej strony i do hadoopa nie dotarłem jeszcze.

Cytat z tutoriala który właśnie oglądnąłem (może być niedokładny):
"Hadoop doesn't replace SQL Server, it extends it in areas where expanding SQL Server would be very costly."

Muszę jeszcze przyjrzeć się dokładniej czym jest tzw. "Hive" ale w chwili obecnej widzę, że to trochę inna specyfika i inna skala.

Ideałem dla mnie byłoby mieć bazę danych z zestawem standardowych procedur, taki gotowy framework, na bazie którego w szybki, bezbolesny i tani sposób możnaby zaimplementować hurtownię danych niewielkich rozmiarów, która będzie działać. Jeśli do tego będzie wymagany support/maintenance, to bardzo dobrze - z czegoś trzeba żyć ;-)
PS) teraz jak to i tamto sobie przeczytałem, to wyszło na to, że jak zwykle napisałem tak, że chyba odpowiedziałem niewłaściwej osobie :(. Bartłomieju, nie bierz tego co napisałem do siebie, niech to będzie ogólny głos w dyskusji :)

nie martw się, jestem tyle lat na sieci, gdybym brał wszystko do siebie to pewnie byłbym już po kilku próbach samobójczych :DTen post został edytowany przez Autora dnia 19.06.14 o godzinie 16:29
Adam O.

Adam O. Bazy danych etc

Temat: Hurtownia Danych - Baza Open Source

Tak, rozważ hadoopa, skoro wszystko jedno od czego zaczniesz, a to już nieco znasz, to zacznij od tego. Akurat zacząłem z drugiej strony i do hadoopa nie dotarłem jeszcze.

Cytat z tutoriala który właśnie oglądnąłem (może być niedokładny):
"Hadoop doesn't replace SQL Server, it extends it in areas where expanding SQL Server would be very costly."

Amen, hadoop nie zastępuje relacyjnej bazy danych ani nawet nie powinien (moim skromnym zdaniem) zastępować dotychczasowej hurtowni danych jeżeli się do tej pory sprawdzała.
Hadoop to rozwiązanie które można rozważyć jak mamy przyrosty przynajmniej kilku gigabajtów dziennie, dane nam będą rosły w tera i petabajty, a dodatkowo nie mamy wymaganego szybkiego rezultatu zapytania (są wyjątki, ale to już inna para kaloszy).
Hadoop ogólnie nie jest dla wszystkich, a niestety mamy hype na Big Data i każdy to chce u siebie wcisnąć, nawet jak nie ma to sensu.
Muszę jeszcze przyjrzeć się dokładniej czym jest tzw. "Hive" ale w chwili obecnej widzę, że to trochę inna specyfika i inna skala.

Hadoop to tak naprawdę rozproszony system plików plus framework który umożliwia odwoływanie się i zarządzanie nim, powstało dużo "upraszczaczy" które potrafią pomóc w zarządzaniu tym rozproszonym chaosem. Hive to takie nałożenie metadanych na ten system, a hiveQL to taki język zapytań do tych metadanych, dzięki któremu nie musimy pisać skryptów hadoop-shellowych ani programów map-reduce, ani robić innych dziwnych rzeczy.
Na marginesie - to tylko jeden z systemów "upraszczających" do hadoopa, popularny, ale nie jedyny, a nawet śmiem twierdzić że nie najwygodniejszy;)
Ideałem dla mnie byłoby mieć bazę danych z zestawem standardowych procedur, taki gotowy framework, na bazie którego w szybki, bezbolesny i tani sposób możnaby zaimplementować hurtownię danych niewielkich rozmiarów, która będzie działać. Jeśli do tego będzie wymagany support/maintenance, to bardzo dobrze - z czegoś trzeba żyć ;-)

Netezza? Nie wiem o niej za dużo, ale jak widzę "gotowy framework" i "hurtownia" w jednym zdaniu to mi się samo narzuca.
Bartłomiej Głowacki

Bartłomiej Głowacki BI Support Manager

Temat: Hurtownia Danych - Baza Open Source

Adam O.:

Dzięki za wypowiedź, zostawmy może temat hadoopa na jakiś czas ;-)
Hadoop ogólnie nie jest dla wszystkich, a niestety mamy hype na Big Data i każdy to chce u siebie wcisnąć,
nawet jak nie ma to sensu.

Ostatnio byłem na spotkaniu na którym pytano mnie czym się zajmuję. Powiedziałem że Business Intelligence, nikt nie wiedział o co chodzi, ja byłem zdziwiony że nie wiedzą. Ktoś nieśmiało zapytał czy to coś takiego jak Big Data. Roześmiałem się i powiedziałem że "zwykłe" firmy z tego nie korzystają, ale w gruncie rzeczy to podobne zagadnienia. Okazało się że to termin powszechnie znany i lubiany, może dopisze sobie na wizytówce? W końcu hurtownia danych sieci komórkowej to też Big Data, mimo że stoi na relacyjnej Teradacie :)
Ideałem dla mnie byłoby mieć bazę danych z zestawem standardowych procedur, taki gotowy framework, na bazie którego w szybki, bezbolesny i tani sposób możnaby zaimplementować hurtownię danych niewielkich rozmiarów, która będzie działać. Jeśli do tego będzie wymagany support/maintenance, to bardzo dobrze - z czegoś trzeba żyć ;-)

Netezza? Nie wiem o niej za dużo, ale jak widzę "gotowy framework" i "hurtownia" w jednym zdaniu to mi się samo narzuca.

Czy Netezza jest open source? Nie sądzę :)

Moim ulubionym narzędziem ETL jest Informatica, niestety nie miałem przyjemności z niej korzystać od dosyć dawna. My mówimy jednak o sytuacji, gdy firma ma problem z zapłaceniem licencji za SQL Server 2012 Enterprise :) bo wydaje im się to zbyt drogim rozwiązaniem.

Wojciech Gardziński

Wypowiedzi autora zostały ukryte. Pokaż autora

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Bartłomiej G.:
Adam O.:

Dzięki za wypowiedź, zostawmy może temat hadoopa na jakiś czas ;-)
Hadoop ogólnie nie jest dla wszystkich, a niestety mamy hype na Big Data i każdy to chce u siebie wcisnąć,
nawet jak nie ma to sensu.

Ostatnio byłem na spotkaniu na którym pytano mnie czym się zajmuję. Powiedziałem że Business Intelligence, nikt nie wiedział o co chodzi, ja byłem zdziwiony że nie wiedzą. Ktoś nieśmiało zapytał czy to coś takiego jak Big Data. Roześmiałem się i powiedziałem że "zwykłe" firmy z tego nie korzystają, ale w gruncie rzeczy to podobne zagadnienia. Okazało się że to termin powszechnie znany i lubiany, może dopisze sobie na wizytówce? W końcu hurtownia danych sieci komórkowej to też Big Data, mimo że stoi na relacyjnej Teradacie :)
.
Niech zgadnę Orange

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Wojciech G.:
Bartłomiej G.:
Ostatnio byłem na spotkaniu na którym pytano mnie czym się zajmuję. Powiedziałem że Business Intelligence, nikt nie wiedział o co chodzi, ja byłem zdziwiony że nie wiedzą. Ktoś nieśmiało zapytał czy to coś takiego jak Big Data. Roześmiałem się i powiedziałem że "zwykłe" firmy z tego nie korzystają, ale w gruncie rzeczy to podobne zagadnienia. Okazało się że to termin powszechnie znany i lubiany, może dopisze sobie na wizytówce? W końcu hurtownia danych sieci komórkowej to też Big Data, mimo że stoi na relacyjnej Teradacie :)
Kolega odkrył ściemę BiDowo-bajową. Gratuluję!
My mówimy jednak o sytuacji, gdy firma ma problem z zapłaceniem licencji za SQL Server 2012 Enterprise :) bo wydaje im się to zbyt drogim rozwiązaniem.
Zwykła firma. Liczy pieniądze i widzi, że ściema nie daje efektów. Woli zatrudnić dodatkowych 5 excelkowców, którzy, brodząc po uszy w bagnie exceliozy, będą, i tak, efektywniejsi.

nie Excel tylko Access jak już i tak masz rację firma woli zatrudnić kilku kolesi od klepania w Accessie
a jak już Access nie daje rady to kolejnego magika od klepania aplikacji w PHP + MySQL które te dane rzeźbią

Wojciech Gardziński

Wypowiedzi autora zostały ukryte. Pokaż autora

konto usunięte

Temat: Hurtownia Danych - Baza Open Source

Bartłomiej G.:
Adam O.:
[...]
Ideałem dla mnie byłoby mieć bazę danych z zestawem standardowych procedur, taki gotowy framework, na bazie którego w szybki, bezbolesny i tani sposób możnaby zaimplementować hurtownię danych niewielkich rozmiarów, która będzie działać. Jeśli do tego będzie wymagany support/maintenance, to bardzo dobrze - z czegoś trzeba żyć ;-)

Netezza? Nie wiem o niej za dużo, ale jak widzę "gotowy framework" i "hurtownia" w jednym zdaniu to mi się samo narzuca.

Czy Netezza jest open source? Nie sądzę :)

Moim ulubionym narzędziem ETL jest Informatica, niestety nie miałem przyjemności z niej korzystać od dosyć dawna. My mówimy jednak o sytuacji, gdy firma ma problem z zapłaceniem licencji za SQL Server 2012 Enterprise :) bo wydaje im się to zbyt drogim rozwiązaniem.

Co licencji - SQL Server 2012 Enterprise to 6.5kUSD za core -
min. 4 trzeba kupić. Robi się całkiem sporo. Wiem, że Oracle,
czy DB2 są sporo droższe. No ale dla małej firmy? Zwłaszcza,
że pewnie system transakcyjny trzeba robić osobno...

PostgreSQL do mniejszych rzeczy nadaje się całkiem fajnie.
Można zrobić przechowywanie i wstępne przetwarzanie obok
głównego, transakcyjnego procesu. Nawet w ramach samej
bazy też coś tam się da zrobić - pojedyncza wartość może mieć
4GB. Tablicę array - trzymana jest jak w Ansi C. Czyli, od biedy
można pójść w stronę bazy kolumnowej. Tyle, że... pod spodem
baza szatkuje te dane i w praktyce już tak fanie nie wygląda.
Dlatego, jak zajmowałem się takimi wynalazkami - ETL był
poza PG, natomiast dopytywanie szło czystym SQLem. Następny
krok to wstępne przefiltrowanie już na poziomie dostępu do
danych. Funkcje okienkowe są super, nawet działa to optymalnie.
Tyle, że problemem jest seqscan po ogromnym zbiorze danych.
Oracle pozwala na zrobienie tego przez kilka równoległych
procesów - każdy swój kawałek. Hadoop ma tak, że chunk
danych ma 64MB i każdy z nich może być obskoczony przez
osobny proces. Postgres jedzie od początku do końca. To, co
sam z siebie potrafi optymalizować - równoległe seqscany spina
w jeden.

To co piszę, to trochę naginanie rozwiązania czysto transakcyjnego
do zastosowania, które jest mu obce. Słyszałem, że jakaś polska
firma przerobiła PG, żeby trzymał dane kolumnowo, nie wierszowo.
Niby da się, ale z drugiej strony - może prościej pójść w stronę
rozwiązań, które z miejsca odrzucają transakcyjność i cały związany
z nią narzut? Chętnie bym zobaczył jak SIMD działa w takim czymś,
ale ilość roboty trochę mnie odstrasza :D
No i zastosowanie w realnych zagadnieniach - jest osobną sprawą.
Dobra - posumować da się, ale tu by trzeba umieć zastosować jakieś
wyrażenie do danej - krok za krokiem - no a to już raczej CUDA. No i
robi się problem, o którym wiem, że nie pociągnę...



Wyślij zaproszenie do