Namiastka data miningu

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

Mam bazę danych utworów Juliusza Słowackiego w MySql, interesuje mnie stworzenie statystyk, np częstotliwość występowania wyrazów, oraz odnalezienie sieci powiązań między poszczególnymi rekordami (utworami, np z uwagi na słowa kluczowe oraz datę powstania).

Jestem zupełnie zielony w tym temacie, chciałbym chociaż napisać moduł zliczający słowa we wszystkich rekordach i podający częstotliwość występowania, może jakiś mini crawler ? Generalnie wszystko znajduje się w jednej tabeli (za wyjątkami tabel - nadkategorii ale to już szczegół na później).

W jakiś sposób można do tego ogólnikowo podejść?
Dziękuję.

Link do wypowiedzi

Adam Woźniak software architect
and developer

Temat: Namiastka data miningu

Oskar Jarczyk:
Mam bazę danych utworów Juliusza Słowackiego w MySql, interesuje mnie stworzenie statystyk, np częstotliwość występowania wyrazów, oraz odnalezienie sieci powiązań między poszczególnymi rekordami (utworami, np z uwagi na słowa kluczowe oraz datę powstania).

Jestem zupełnie zielony w tym temacie, chciałbym chociaż napisać moduł zliczający słowa we wszystkich rekordach i podający częstotliwość występowania, może jakiś mini crawler ? Generalnie wszystko znajduje się w jednej tabeli (za wyjątkami tabel - nadkategorii ale to już szczegół na później).

W jakiś sposób można do tego ogólnikowo podejść?

Kurczaki, może o coś takiego Tobie chodzi http://en.wikipedia.org/wiki/Lucene , hę?

Pozdrawiam, Adam

Link do wypowiedzi

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

Adam Woźniak:

Oskar Jarczyk:
Mam bazę danych utworów Juliusza Słowackiego w MySql, interesuje mnie stworzenie statystyk, np częstotliwość występowania wyrazów, oraz odnalezienie sieci powiązań między poszczególnymi rekordami (utworami, np z uwagi na słowa kluczowe oraz datę powstania).

Jestem zupełnie zielony w tym temacie, chciałbym chociaż napisać moduł zliczający słowa we wszystkich rekordach i podający częstotliwość występowania, może jakiś mini crawler ? Generalnie wszystko znajduje się w jednej tabeli (za wyjątkami tabel - nadkategorii ale to już szczegół na później).

W jakiś sposób można do tego ogólnikowo podejść?

Kurczaki, może o coś takiego Tobie chodzi http://en.wikipedia.org/wiki/Lucene , hę?

Pozdrawiam, Adam

Lucynka działa pod jbossem ?

Statystyki wyrazów mają aktualizować się co jakiś czas, chciałbym również mapowanie gdzie który wyraz można znaleźć. Może jakiś bazodanowy trigger albo procedurka po stronie aplikacji?

A co z szukaniem sieci powiązań tematycznych między rekordami (np. tematyka utworu, znalezione słowa a odbyte przez autora podróże)

pzdr.
o.j.

Link do wypowiedzi

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

Na razie mam coś takiego:

pomysł na mini crawler
procedurka sql która zwraca kolekcje słów i ich częstotliwość występowania (string tokenizer rekord po rekordzie), takie dane idą gdzieś do persistence, ponadto tworzę xmla na bazie którego webaplikacja wyświetla nasze rezultaty, i tak co dwie doby crawler ponawia pracę.

Link do wypowiedzi

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: Namiastka data miningu

A czy chcesz rozróżniać słowa "zielony i "zielona". Jeżeli tak to dodatkowo potrzebny jest słownik.

Link do wypowiedzi

Oskar Jarczyk Artificial
intelligence expert
@ Deep.BI, PhD in
Social I...

Temat: Namiastka data miningu

tak, mam moduł który m.in. dokonuje odmiany fleksyjnej słów języka nowopolskiego i średniopolskiego

Link do wypowiedzi

Bazy Danych

Czy na pewno chcesz zrezygnować z tej grupy?

Zgłoś nieprawidłowości w wypowiedzi

Namiastka data miningu

Blokowanie użytkownika

Temat: Namiastka data miningu

Temat: Namiastka data miningu

Temat: Namiastka data miningu

Temat: Namiastka data miningu

Temat: Namiastka data miningu

Temat: Namiastka data miningu

Podobne tematy

Bazy Danych » SQL 2000 - Data Transpormation Services -

Bazy Danych » SQL Developer i Data Modeler pytanie -

Bazy Danych » BIG DATA SUMMIT – 29.03 w Warszawie -

Bazy Danych » MS SQL 2000 Space allocated data -

Bazy Danych » Data Warehouse - Co polecacie? -

Bazy Danych » The table mysql.proc is missing, corrupt, or contains bad... -

Bazy Danych » Kreatywne rozwiązania Data Warehousing i Business... -

SQL 2000 - Data Transpormat...

Modyfikacja dużej bazy danych

Uruchomienie pliku bat.

Oferty pracy