Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Witam:)

Mam pytanie techniczne.

Ostatnio zgłosił się do nas klient z następującym zapytaniem:

Baza danych z artykułami prasowymi (format PDF lub real text). Przeszukiwanie bazy za pomocą słów kluczowych. Użytkownicy tworzą swoje własne profile (przez Internet), na podstawie których są im przyporządkowywane, a następnie udostępniane interesujące ich artykuły prasowe. Wszystko za pomocą słów kluczowych.

No i pytanie, na czym to postawić? ORACLE czy MS SQL?

Zaznaczam jeszcze, że sam użytkownik zewnętrzny (rejestracja przez Internet) nie będzie miał możliwości przeszukiwania bazy, ale jedynie stworzenia profilu. Tylko użytkownicy obsługujący bazę (wszyukujący artykuły dopasowane do profilu użytkowników) będą mieli taką możliwość.

Jeżeli potrzeba więcej danych, aby uzyskać pomoc, to jestem do dyspozycji.

Pozdrawiam i z góry dzięki!

Przemek Sobieszczuk
http://www.goldenline.pl/grupa/transition-technologies

konto usunięte

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Zgaduje, ze skoro Transition Technologies to Oracle Certified Advantage Partner, no to chyba jednak wybór padnie na ORACLE?

Technicznie - nie dostrzegam w tym szczególnym zastosowaniu istotnych różnic. Ale daleko nie sięgam wzrokiem.
Łukasz Rakowiecki

Łukasz Rakowiecki Credit Suisse DSE

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Sądzę, iż lepszym pytanie było by jak zaprojektować, ponieważ z kontekstu twojej wypowiedzi można wnioskować, że będzie to dosyć mała baza max koło 30 Gb, więc kwestia, jaką bazę wybrać trochę jest na wyrost. Przy takich projektach wybiera się bazę najlepiej znaną, deweloperom, a nie w drugą stronę, ponieważ nie będą jej wstanie zoptymalizować. Co do reszty wymagań to są w miarę standardowe jak na serwis/repozytorium www.
Jacek Ołowiak

Jacek Ołowiak kierownik zespołu IT

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

jest też kwestia ilości transakcji.
Fakt, że dla małych baz nie ma różnicy czy Oracle czy MSSQL (może poza ceną) ale np. MSSQL jest ciut wydajniejszy jeśli chodzi o duże obciążenie przy wielu userach podłączonych jednoczesnie.
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Baza danych startuje od zera, czyli początkowo nie będzie w niej żadnych artykułów, aczkolwiek zaczną się one pojawiać (sukcesywnie) od samego początku istnienia bazy. Przyrost średni (szacowany) to 50 artykułów dziennie (przynajmniej w początkowej fazie działalności bazy). Zakładając, że artykuły będą spływały do użytkowników bazy (obsługujących ją, a nie rejestrujących się przez Internet) w takich ilościach codziennie, 30 GB jest do osiągnięcia całkiem szybko. Jeżeli założyć, że 1 artykuł w PDF = 1 MB, to mamy (na start!) 50 MB dziennie, czyli (zakładając identyczny przyrost dzienny) 18.000 MB (ponad 17 GB rocznie). Poza tym podkreślam, to tylko na początek. Potem może okazać się, że artykułów będzie 500 dziennie. Wtedy 30 GB to tylko kwestia chwili:)

Nasz podstatowy problem polegał na tym, które rozwiązań będzie lepiej skalowalne: ORACLE czy MS SQL? W celu wprowadzenia (niezbędnego przy dużych ilościach danych) partycjonowania, z ORACLE SE należałoby podtem przejść na Enterprise Edition, a to wiązałoby się z czyszczeniem i powtórnym ładowaniem bazy.

Zdzwiło mnie to, co napisał Jacek. MS SQL wydajniejszy przy wiel userach jednocześnie? Skąd takie doświadczenia?

Pozdrawiam

Przemek
Grzegorz G.

Grzegorz G. ASE / Systems
Architect, Syniverse

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Jacek O.:
CIACH! ale np. MSSQL jest ciut wydajniejszy jeśli chodzi o duże obciążenie przy wielu userach podłączonych jednoczesnie.

Rozumiem, że to dowcip - tylko emotikonki zabrakło :-)
Jacek Ołowiak

Jacek Ołowiak kierownik zespołu IT

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

dane dotycza oracle 8 i mssql 2000

raz ze gdzies kiedys tcp.org robilo porownanie a dwa ze mam praktyczne doswiadczenie (80 osob co sekunde wykonuje zapytanie non stop: mssql2k daje rade ladnie, oracle muli)

Ja też uwazam, ze w ogolnym rozrachunku Oracle jest o wiele lepszy - warto jednak potestować dla konkretnych rozwiązań.
Łukasz Rakowiecki

Łukasz Rakowiecki Credit Suisse DSE

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Jeśli planujesz taki przyrost to faktycznie może się okazać lepszy Oracle na jakimś uniksowym OS. Natomiast w ciągu dwóch lat i tak będzie potrzebny nowy release. I wtedy można skalować dalej repozytorium. Nie wiem jak dokładnie jest z licencjonowaniem i migracją natomiast warto zrobić analizę, a to już bańka analityka.
Natomiast zależy jeszcze jakie czasy dostępu przewiduje projekt ilu użytkowników. Ciężko zawsze oszacować takie rzeczy nie zagłębiając się w projekt więc jeśli chodzi o mnie jednak doradzał bym burzę mózgów w zespole i wziąć jednego admina dla orientacji na system operacyjny.
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

No tak, ale tutaj niestety nie będziemy mieli możliwości testów. Klientowi możemy zaproponować albo ORACLE albo MS SQL i niestety musimy się oprzeć na historycznych danych, a te (jeśli chodzi o wydajność) wskazują na ORACLE. No ale pozostaje jest kwestia ceny i skalowalności. Chętnie dowiem się czegoś więcej od Was, jeżeli chodzi o tą drugą kwestię.

Przemek
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Łukasz R.:
Natomiast zależy jeszcze jakie czasy dostępu przewiduje projekt

Klient zdradział, że tutaj przyrost będzie jeszcze bardziej dynamiczny, aniżeli w przypadku samych artykułów. Początkowo kilkudziesięciu użytkowników. Docelowo - tysiące, dziesiątki tysięcy!!!

P.
Łukasz Rakowiecki

Łukasz Rakowiecki Credit Suisse DSE

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Przemek S.:
Łukasz Rakowiecki:
Natomiast zależy jeszcze jakie czasy dostępu przewiduje projekt

Klient zdradział, że tutaj przyrost będzie jeszcze bardziej dynamiczny, aniżeli w przypadku samych artykułów. Początkowo kilkudziesięciu użytkowników. Docelowo - tysiące, dziesiątki tysięcy!!!

P.
Ok trochę dużo, więc wychodząc z takiego założenia lepiej Oracle i myśleć o sprzęcie ponieważ z tego co wiem jeśli chodzi o dziesiątki tysięcy użytkowników to daje nam znaczą liczbę zapytań na sekundę. Warto skontaktować się z ludkami z Oracle i przedstawić im sprawę, a oni zaproponują całe rozwiązanie sprzętowe i system co będzie dużo lepsze niż odpytywanie na grupie, tym bardziej że w przypadku pomyłki firma dostanie w plecy jak coś będzie nie tak :)

konto usunięte

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

To może...mysql? :)

Jak dobrze rozumiem klienci internetowi mają tylko zlecać wyszukiwania? W takim razie może się okazać, że dla nich baza może być dowolna (MySQL, MSSQL, Oracle, DB2).

Natomiast jeśli chodzi o engine do wyszukiwań, to można to zrobić na osobnej bazie (może nawet trzeba? - np. reindeksacje, przebudowy).

Dzięki temu można postawić kilka baz "engine" a wyszukiwania wykonywać na dowolnie wybranej (przez wewnętrznego użytkownika / mechanizm) instancji. Mało tego - przebudowa indeksu, dodawanie artykułów wcale nie obciąża pracy użytkowników wyszukujących - po prostu nie używają oni przez pewien czas wybranej instancji.

Oczywiście takie rozwiązanie baz (1+n) wiąże się z potrzebą synchronizacji i ze zwiększonym skomplikowaniem projektu, ale może się opłacić (nie trzeba będzie kupować mainframe'a a być może wystarczy kilka PC-etów z Media Marktu ;).

Co do indeksowania PDF-a to pewnie dla potrzeb wyszukiwania trzeba będzie go konwertować do pliku XML lub plain text?Piotr Likus edytował(a) ten post dnia 10.10.07 o godzinie 10:07
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Jasna sprawa, że odpytamy ludków z ORACLE. Ale na grupie pytam po to, aby pozbierać nieco opinii praktyków:)

P.
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Piotrze, trafna uwaga. Wymyśliliśmy podobnie, że jednym enginem obsłużymy bazę klientów zewnętrznych (profile tworzone w sieci(, a drugim artykuły. Faktycznie tekst ma być rozkodowany do plain text na potrzeby wyszukiwania. Dodatkowo wyszukiwanie ma mieć formę zamówienia. Klient NIE UZYSKA natychmiastowej odpowiedzi, ale jedynie zamówi intersującego go tematy, które w paczce przyszukują mu użytkownicy klienta, obsługujący bazę i wyszukujący użytkownikowi zewnętrznemu artykuły samodzielnie.

P.

konto usunięte

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Jeżeli założyć, że 1 artykuł w PDF = 1 MB, to mamy (na start!) 50 MB dziennie, czyli (zakładając identyczny przyrost dzienny) 18.000 MB (ponad 17 GB rocznie). Poza tym podkreślam, to tylko na początek. Potem może okazać się, że artykułów będzie 500 dziennie. Wtedy 30 GB to tylko kwestia chwili:)

weź pod uwagę, że ten 1MB PDF to binarka, która w sobie tekstu ma dużo mniej - a przecież to co jest istotne to tylko keywordy w tekście. Więc to ma wpływ na przestrzeń zajmowaną na dysku, ale nie na wydajność bazy danych przy operacjach wyszukiwania. W skrajnym przypadku możesz to podzielić tak, że do bazy wrzucasz tylko keywordy artykułu oraz URL do PDF-a zupełnie gdzieś indziej.
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Zgadzam się, tylko czy w ten sposób nie komplikujemy zbytnio kwestii infrastruktury hardware? Klientowi nie zależy na skomplikowanym i rozbudowanym rozwiązaniu, tylko raczej na czymś, co będzie chodziło na start niezwodniei potem zostanie poszerzone na potrzeby rozrastającego się biznesu:D

P.

konto usunięte

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Przemek S.:
Zgadzam się, tylko czy w ten sposób nie komplikujemy zbytnio kwestii infrastruktury hardware? Klientowi nie zależy na skomplikowanym i rozbudowanym rozwiązaniu, tylko raczej na czymś, co będzie chodziło na start niezwodniei potem zostanie poszerzone na potrzeby rozrastającego się biznesu:D

P.

Zgadzam się że lepiej PDF-y trzymać na dysku a nie w bazie. Patrz:
http://www.goldenline.pl/forum/php/148253
http://www.goldenline.pl/forum/bazy-danych/148255

Tylko indeksy / słowa kluczowe powinny być w bazie.
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Skoro takie rozwiązania mają zastosowanie, to może faktycznie się nad nimi warto pochylić? Bardzo dziękuję za rady:)

No ale w sumie nadal nie wiem, czy MS SQL czy ORACLE? Macie jeszcze jakieś sugestie?

P.
Jacek Ołowiak

Jacek Ołowiak kierownik zespołu IT

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

oracle i AIX

znam jedną firme (robia ceizarowki ale nie moge zdradzic nazwy :P )ktora ma klikaset oddzialow na swiecie i jej systemy centralne (ogromne zasoby, miliony danych na sekunde) stoja na oracle (i to na staruszkach typu 8, 9i) i to wszystko chodzi baaadzo sprawnie
Przemek Sobieszczuk

Przemek Sobieszczuk Dyrektor Sprzedaży /
Pełnomocnik Zarządu
w OPITZ Consulti...

Temat: Baza danych z artykułami prasowymi + wyszukiwarka - na...

Dzięki za sugestię. Czy może napisać coś więcej o AIX? Akurat tutaj nie posiadam specjalnie wiedzy w temacie...

P.

Następna dyskusja:

Hurtownia Danych - Baza Ope...




Wyślij zaproszenie do