Wojtek Jurewicz

Wojtek Jurewicz ETL and Database
Developer / Business
Intelligence
specia...

Temat: Zarządzanie źródłem danych w hurtowni

Prawdopodobnie nieumiejętność właściwego doboru tematu jest powodem niemożności odnalezienia źródeł w internecie, ale może ktoś będzie w stanie mi z tym pomóc.

W skrócie: dane ładowane do hurtowni danych pochodzą z różnych źródeł, po drodze poddawane są licznym transformacjom a na końcu lądują w postaci wpisu w jednej kolumnie którejś z tabel. Chciałbym w miarę elastycznie zarządzać tą ścieżką we współpracy z osobami odpowiedzialnymi za systemu źródłowe, tzn. chciałbym wiedzieć dokładnie kiedy i w jaki sposób zmiana w strukturze danych systemu źródłowego wpłynie na strukturę / postać danych w hurtowni.

Dla przykładu, docelowa kolumna ENGINE_CAPACITY w tabeli DIM_CARS pochodzi z systemu CARPOOL@companydomain, gdzie znajduje się w tabeli COMPANY_VEHICULES w kolumnie V_PAR_1 w wierszach posiadających wartość "CAR" dla kolumny VH_CLASS. W związku z update-m systemu dana ta znajduje się teraz w tej samej tabeli, ale w kolumnie V_PAR_2 w wierszach posiadających wartość "SMALL_CAR" lub "BIG_CAR" dla kolumny VH_CLASS. Zmiana ta ma wpływ na wspomnianą na początku kolumnę ENGINE_CAPACITY w tabeli DIM_CARS, przez co wymagana jest aktualizacja procesów ETL.

Chciałbym móc prowadzić listę tabel i kolumn w hurtowni wraz z ich źródłem tak, abym po takich zmianach w źródłach mógł łatwo ocenić jaki mają wpływ na hurtownię, oraz zaktualizować odpowiednie procesy. Wiem, że popularnym narzędziem do tego jest arkusz Excel-owy, ale nie tego szukam, znacie jakieś inne użyteczne narzędzia mogące pomóc w tej kwestii - zarówno darmowe jak i komercyjne?

Wojciech Gardziński

Wypowiedzi autora zostały ukryte. Pokaż autora

konto usunięte

Temat: Zarządzanie źródłem danych w hurtowni

Wojtek Jurewicz:
Wiem, że popularnym narzędziem do tego jest arkusz Excel-owy, ale nie tego szukam, znacie jakieś inne użyteczne narzędzia mogące pomóc w tej kwestii - zarówno darmowe jak i komercyjne?
Wojciech Gardziński:
Naprawdę mi przykro, że w Excelu. :(

Czasami warto doczytać do końca, kolega nie prosił o rozwiązanie w exceluKrystian Kusio edytował(a) ten post dnia 14.01.11 o godzinie 13:15

Wojciech Gardziński

Wypowiedzi autora zostały ukryte. Pokaż autora

konto usunięte

Temat: Zarządzanie źródłem danych w hurtowni

nigdzie nie napisałem, że to rozwiązanie jest złe, tylko żeby czytać do końca i ze zrozumieniem.
Jeżeli chcę kupić samochód i zaznaczam, że nie ma to być Polonez, to nie rozumiem postów typu "Kup poloneza"

robi się z tego off-topic, więc może zakończmy na tym.Krystian Kusio edytował(a) ten post dnia 14.01.11 o godzinie 13:23

Wojciech Gardziński

Wypowiedzi autora zostały ukryte. Pokaż autora

konto usunięte

Temat: Zarządzanie źródłem danych w hurtowni

ale to nie Pana post, więc nie wiem na co Pan czeka :o)

konto usunięte

Temat: Zarządzanie źródłem danych w hurtowni

Wojtek Jurewicz:
Chciałbym móc prowadzić listę tabel i kolumn w hurtowni wraz z ich źródłem tak, abym po takich zmianach w źródłach mógł łatwo ocenić jaki mają wpływ na hurtownię, oraz zaktualizować odpowiednie procesy. Wiem, że popularnym narzędziem do tego jest arkusz Excel-owy, ale nie tego szukam, znacie jakieś inne użyteczne narzędzia mogące pomóc w tej kwestii - zarówno darmowe jak i komercyjne?

Jednym słowem szukasz narzędzi do analiz typu Data Lineage. W przypadku rozwiązań korporacyjnych znajdziesz je na przykład w:
- IBM InfoSphere Information Server - IBM InfoSphere Metadata Workbench
- Informatica 9 - Informatica Metadata Manager

Pierwsze moim zdaniem ma większe możliwości jeśli chodzi o źródła metadanych. Choć do samych baz danych, narzędzi modelujących (np. Erwin) i raportujących (np. Cognos) to drugie też wystarcza.

Zapewne znajdziesz odpowiedniki tych narzędzi w rozwiązaniach typu Freeware
Wojtek Jurewicz

Wojtek Jurewicz ETL and Database
Developer / Business
Intelligence
specia...

Temat: Zarządzanie źródłem danych w hurtowni

Dzięki Marcin. Może jest ktoś wstanie polecić coś darmowego do tego celu? Wydawałoby się, że to dość powszechny problem, w jaki sposób sobie z tym radzicie? W ogóle próbujecie zarządzać takimi powiązaniami?
Robert Woźniak

Robert Woźniak Digital Advisor &
Founder

Temat: Zarządzanie źródłem danych w hurtowni

Wojtek Jurewicz:
Prawdopodobnie nieumiejętność właściwego doboru tematu jest powodem niemożności odnalezienia źródeł w internecie, ale może ktoś będzie w stanie mi z tym pomóc.

W skrócie: dane ładowane do hurtowni danych pochodzą z różnych źródeł, po drodze poddawane są licznym transformacjom a na końcu lądują w postaci wpisu w jednej kolumnie którejś z tabel. Chciałbym w miarę elastycznie zarządzać tą ścieżką we współpracy z osobami odpowiedzialnymi za systemu źródłowe, tzn. chciałbym wiedzieć dokładnie kiedy i w jaki sposób zmiana w strukturze danych systemu źródłowego wpłynie na strukturę / postać danych w hurtowni.

Dla przykładu, docelowa kolumna ENGINE_CAPACITY w tabeli DIM_CARS pochodzi z systemu CARPOOL@companydomain, gdzie znajduje się w tabeli COMPANY_VEHICULES w kolumnie V_PAR_1 w wierszach posiadających wartość "CAR" dla kolumny VH_CLASS. W związku z update-m systemu dana ta znajduje się teraz w tej samej tabeli, ale w kolumnie V_PAR_2 w wierszach posiadających wartość "SMALL_CAR" lub "BIG_CAR" dla kolumny VH_CLASS. Zmiana ta ma wpływ na wspomnianą na początku kolumnę ENGINE_CAPACITY w tabeli DIM_CARS, przez co wymagana jest aktualizacja procesów ETL.

Chciałbym móc prowadzić listę tabel i kolumn w hurtowni wraz z ich źródłem tak, abym po takich zmianach w źródłach mógł łatwo ocenić jaki mają wpływ na hurtownię, oraz zaktualizować odpowiednie procesy. Wiem, że popularnym narzędziem do tego jest arkusz Excel-owy, ale nie tego szukam, znacie jakieś inne użyteczne narzędzia mogące pomóc w tej kwestii - zarówno darmowe jak i komercyjne?


Informatica Power Center ma takie narzędzie, nazywa się data lineage / impact analysis i kosztuje słono :).

http://www.integralsolutions.pl/is/images/artykuly/pow...

Przy czym podczas tworzenia mappingów należy zachować pewne reguły, w skrócie nie podmieniamy definicji źródeł danych na zapytania SQL (czyli nie podmieniamy source qualifier'a).Robert Woźniak edytował(a) ten post dnia 21.01.11 o godzinie 10:38

Następna dyskusja:

Specjalista ds. Hurtowni Da...




Wyślij zaproszenie do