Paweł Grzegorz Kwiatkowski

Paweł Grzegorz Kwiatkowski Architekt
oprogramowania,
Ericsson

Temat: Estymacje

Sytuacja wygląda tak, że chcę szacować czas obsługi zgłoszeń w "issue trackerze".

Zakładam, że na wejściu dane są atrybuty zgłoszenia - np. treść, priorytet, komponent, obszar funkcjonalny, przejścia stanów zgłoszenia, etc.

Trywialna estymata, to uśrednienie danych historycznych po grupach atrybutów i gotowe... ale dla próbki:

Komponent=Modul1, Priortyet=2, Opis="Nie działa"
Komponent=Modul1, Priotytet=2, Opis="Dla roli XYZ brak widoku ABC"
Komponent=Modul1, Priotytet=2, Opis="Dla roli ABC brak widoku DEF"

i rzeczywistych czasów obsługi np. 4, 1, 1 wychodzi średnio: 2 dni/godziny/...

Estymata 2 dni dla zgłoszenia z opisem "Nie działa" jest dość ryzykowna, stąd kolejny pomysł, to K-Means + algorytm wyliczający podobieństwo tekstów (tak, żeby "Nie działa" i "Dla roli XYZ brak widoku ABC" były traktowane jako dostatecznie odległe by wpaść do innych klastrów, zaś "Dla roli..." jako podobne) i uśrednianie po klastrach.

Może ktoś zajmował się podobnym zagadnieniem i podzieli się spostrzeżeniami? np. niektóre kierunki skazana są na porażkę, albo "lepiej zrobić tak i tak".
Maciej G.

Maciej G. Projektant /
Programista, Famor
S.A.

Temat: Estymacje

A gdyby zastosować "Naiwny klasyfikator Bayesa"?

Link:

http://www.statsoft.pl/textbook/stathome_stat.html?htt...

Nie jest to doskonała metoda, ale czasem przynosi zaskakująco dobre wyniki.

Co do algorytmów, narzędzi jest ich sporo, Dobra jest np. WEKA:

http://www.cs.waikato.ac.nz/ml/weka/

Pewnie dużo lepsze rezultaty dałoby połączenie metod PCA +SVM, ale tu trzeba dobrze opracować model i jest z tym sporo zabawy (nie wiem, czy chciałbyś na to poświęcić tyle czasu). Co do specjalizowanych narzędzi do konkretnie tego zadania to nie znam.

PCA - Analiza Głównych Składowych (pozwala wyeliminować, czynniki mające mały wpływ na zmienność modelu):

http://www.statystyka.az.pl/analiza-skladowych-glownyc...

SVM - Support Vector Machines

http://jakubniwa.pl/svm-support-vector-machine/

http://www.support-vector-machines.org/

Czyli w przypadku SVM próbowałbyś zaklasyfikować nowa próbkę do jednej z wielu klas (dla których estymata czasowa jest znana).

Oczywiście budowa prawidłowego modelu ma tu zasadnicze znaczenie i stanowi największą trudność (pewnie wykorzystanie jakiejś funkcji liczącej "odległość", czy też podobieństwo miedzy tekstami będzie niezbędne). Być może istnieją lepsze metody dla tak sformułowanego zadania, lub wyspecjalizowany software.

Ponieważ twój post jest już bardzo stary i nie było na niego odpowiedzi, czy mógłbyś napisać, jak rozwiązałeś problem (problem jest interesujący z praktycznego punktu widzenia).

Pozdrawiam.Ten post został edytowany przez Autora dnia 08.05.15 o godzinie 08:02

Podobne tematy


Następna dyskusja:

Estymacje kwartalne?




Wyślij zaproszenie do