Tomasz Dzioba

Tomasz Dzioba wszystkiego po
trochu

Temat: Dopasowywanie materiału do bazy danych.

Witam,

Za bardzo nie wiem do jakiej grupy się zwrócić jednak sądzę, że wybór tutejszej okaże się najbardziej trafiony. Otóz. Czy jest jakieś sensowne narzędzie, które pozwoliłoby mi dopasować przekręcone nazwiska do prawidłowych nazwisk ? Już tłumaczę co mam na myśli. Dajmy na to, że posiadam bazę danych klientów.

lp nazwa nazwisko imie
1 jan kowalski kowalski jan
2 stefaniak sylwia stefaniak sylwia

Jednak co jakiś czas dostaję bazę danych dość marnej jakości, gdzie nazwiska są przekręcone, przestawiona kolejność itp, np.

lp nazwa
1 sylwia st3faniak
2 jan kowlski
3 jn kowlski
4 sywia stefanak

Jak widać, litery są 'pogubione' a mimo to trzeba to dopasować do poprawnych pozycji. Czy jest jakiś sposób na to lub jak taka metoda/operacja się nazywa. Czego miałbym szukać?
Paweł Grzegorz Kwiatkowski

Paweł Grzegorz Kwiatkowski Architekt
oprogramowania,
Ericsson

Temat: Dopasowywanie materiału do bazy danych.

Szukałbym po kluczu "fuzzy matching". Ewentualnie liczył metryki podobieństwa danych wzorców, np. to wygląda na dobry punkt zaczepienia: http://staffwww.dcs.shef.ac.uk/people/S.Chapman/string...Paweł Grzegorz Kwiatkowski edytował(a) ten post dnia 09.03.11 o godzinie 14:13
Mariusz Masewicz

Mariusz Masewicz Prawie wszysko o
bazach danych Oracle
:-)

Temat: Dopasowywanie materiału do bazy danych.

Tomasz Dzioba:
[...]
Jak widać, litery są 'pogubione' a mimo to trzeba to dopasować do poprawnych pozycji. Czy jest jakiś sposób na to lub jak taka metoda/operacja się nazywa. Czego miałbym szukać?

Wpisz w googla: "czyszczenie danych", moze do tego cos z "zapewnianie jakości danych" (oczywiscie po polsku i angielsku) - dostaniesz namiary na software (platne i darmowe) i na firmy, ktore robia to za pieniadze.

Pozdrawiam

MariuszMariusz Masewicz edytował(a) ten post dnia 09.03.11 o godzinie 16:04
Adam O.

Adam O. Bazy danych etc

Temat: Dopasowywanie materiału do bazy danych.

Możesz spróbować indeksów pełnotekstowych, poszukaj FULLTEXT SEARCH i terminów NEAR, FORMSOF itp.

Zależy od tego jak dużo masz tych danych do dopasowania, bo może to strzelanie z armaty do wróbla.
Tomasz Dzioba

Tomasz Dzioba wszystkiego po
trochu

Temat: Dopasowywanie materiału do bazy danych.

Hehe. W tamtym roku było to ponad 600K śmieciowej jakości danych.

konto usunięte

Temat: Dopasowywanie materiału do bazy danych.

niech dają bazę z jakimś identyfiaktorem, przy porównywaniu nazwisk prosisz się o poważne kłopoty np. przypisanie danych pracownika A do pracownika B

i teraz pytanie kto jest później odpowiedzialny za taki bałaganik?
Tomasz Dzioba

Tomasz Dzioba wszystkiego po
trochu

Temat: Dopasowywanie materiału do bazy danych.

Przemysław R.:
niech dają bazę z jakimś identyfiaktorem, przy porównywaniu nazwisk prosisz się o poważne kłopoty np. przypisanie danych pracownika A do pracownika B

i teraz pytanie kto jest później odpowiedzialny za taki bałaganik?
Przez ostatnie lata, działało to tak, iż ludzie siedzieli i dostawali najbardziej zbliżone wyniki, które dopasowywali. Więc chciałbym tych ludzi poprostu zastąpić. Ewentualnie skończy się to tak, że dopasuję dane w 100% zgodne a reszta śmieci dla pracowników do dopasowania.

konto usunięte

Temat: Dopasowywanie materiału do bazy danych.

Tomasz Dzioba:
Przemysław R.:
niech dają bazę z jakimś identyfiaktorem, przy porównywaniu nazwisk prosisz się o poważne kłopoty np. przypisanie danych pracownika A do pracownika B

i teraz pytanie kto jest później odpowiedzialny za taki bałaganik?
Przez ostatnie lata, działało to tak, iż ludzie siedzieli i dostawali najbardziej zbliżone wyniki, które dopasowywali. Więc chciałbym tych ludzi poprostu zastąpić. Ewentualnie skończy się to tak, że dopasuję dane w 100% zgodne a reszta śmieci dla pracowników do dopasowania.

masz Jana kowalskiego i Jana kowalskiego - to dwie różne osoby - jak wybierzesz odpowiedniego?
Tomasz Dzioba

Tomasz Dzioba wszystkiego po
trochu

Temat: Dopasowywanie materiału do bazy danych.

Na nazwę pracownika mam index unique - tak jest i w MOIM przypadku być powinno. Dlatego też NIGDY nie będę miał dwóch klientów o tej samej nazwie. Dzięki czemu mogę skupić się dopasowywaniu po nazwach a nie zastanawianiu się nad istnieniami fizycznymi.

konto usunięte

Temat: Dopasowywanie materiału do bazy danych.

Tomasz Dzioba:
Na nazwę pracownika mam index unique - tak jest i w MOIM przypadku być powinno. Dlatego też NIGDY nie będę miał dwóch klientów o tej samej nazwie. Dzięki czemu mogę skupić się dopasowywaniu po nazwach a nie zastanawianiu się nad istnieniami fizycznymi.

http://pl.wikipedia.org/wiki/Odleg%C5%82o%C5%9B%C4%87_...
Tomasz Dzioba

Tomasz Dzioba wszystkiego po
trochu

Temat: Dopasowywanie materiału do bazy danych.

Jak sobie tak klikam to trzeba przyznać, że chyba skłonię się ku temu rozwiązaniu. A fakt, że PHP ma gotową funkcję to już w ogóle mnie przekonuje. Działa całkiem fajnie :)

Następna dyskusja:

Forum Bazy Danych




Wyślij zaproszenie do