Oskar Jarczyk

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

Mam bazę danych utworów Juliusza Słowackiego w MySql, interesuje mnie stworzenie statystyk, np częstotliwość występowania wyrazów, oraz odnalezienie sieci powiązań między poszczególnymi rekordami (utworami, np z uwagi na słowa kluczowe oraz datę powstania).

Jestem zupełnie zielony w tym temacie, chciałbym chociaż napisać moduł zliczający słowa we wszystkich rekordach i podający częstotliwość występowania, może jakiś mini crawler ? Generalnie wszystko znajduje się w jednej tabeli (za wyjątkami tabel - nadkategorii ale to już szczegół na później).

W jakiś sposób można do tego ogólnikowo podejść?
Dziękuję.
Adam Woźniak

Adam Woźniak software architect
and developer

Temat: Namiastka data miningu

Oskar Jarczyk:
Mam bazę danych utworów Juliusza Słowackiego w MySql, interesuje mnie stworzenie statystyk, np częstotliwość występowania wyrazów, oraz odnalezienie sieci powiązań między poszczególnymi rekordami (utworami, np z uwagi na słowa kluczowe oraz datę powstania).

Jestem zupełnie zielony w tym temacie, chciałbym chociaż napisać moduł zliczający słowa we wszystkich rekordach i podający częstotliwość występowania, może jakiś mini crawler ? Generalnie wszystko znajduje się w jednej tabeli (za wyjątkami tabel - nadkategorii ale to już szczegół na później).

W jakiś sposób można do tego ogólnikowo podejść?

Kurczaki, może o coś takiego Tobie chodzi http://en.wikipedia.org/wiki/Lucene , hę?

Pozdrawiam, Adam
Oskar Jarczyk

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

Adam Woźniak:
Oskar Jarczyk:
Mam bazę danych utworów Juliusza Słowackiego w MySql, interesuje mnie stworzenie statystyk, np częstotliwość występowania wyrazów, oraz odnalezienie sieci powiązań między poszczególnymi rekordami (utworami, np z uwagi na słowa kluczowe oraz datę powstania).

Jestem zupełnie zielony w tym temacie, chciałbym chociaż napisać moduł zliczający słowa we wszystkich rekordach i podający częstotliwość występowania, może jakiś mini crawler ? Generalnie wszystko znajduje się w jednej tabeli (za wyjątkami tabel - nadkategorii ale to już szczegół na później).

W jakiś sposób można do tego ogólnikowo podejść?

Kurczaki, może o coś takiego Tobie chodzi http://en.wikipedia.org/wiki/Lucene , hę?

Pozdrawiam, Adam

Lucynka działa pod jbossem ?

Statystyki wyrazów mają aktualizować się co jakiś czas, chciałbym również mapowanie gdzie który wyraz można znaleźć. Może jakiś bazodanowy trigger albo procedurka po stronie aplikacji?

A co z szukaniem sieci powiązań tematycznych między rekordami (np. tematyka utworu, znalezione słowa a odbyte przez autora podróże)

pzdr.
o.j.
Oskar Jarczyk

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

Na razie mam coś takiego:

pomysł na mini crawler
procedurka sql która zwraca kolekcje słów i ich częstotliwość występowania (string tokenizer rekord po rekordzie), takie dane idą gdzieś do persistence, ponadto tworzę xmla na bazie którego webaplikacja wyświetla nasze rezultaty, i tak co dwie doby crawler ponawia pracę.
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: Namiastka data miningu

A czy chcesz rozróżniać słowa "zielony i "zielona". Jeżeli tak to dodatkowo potrzebny jest słownik.
Oskar Jarczyk

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

tak, mam moduł który m.in. dokonuje odmiany fleksyjnej słów języka nowopolskiego i średniopolskiego

Następna dyskusja:

SQL 2000 - Data Transpormat...




Wyślij zaproszenie do