konto usunięte

Temat: Pearson

Witam,

Czy ktoś z Państwa dysponuje może kodem T-SQL, który w efektywny sposób jest w stanie policzyć współczynniki korelacji pearsona dla zbioru danych o następującej postaci lub podobnego:

User; Product; Rating
1; 1; 5
1; 2; 4
1; 3; 3
2; 1; 4
2; 3; 2
...

Chodzi o to aby otrzymać macierz korelacji również w postaci tabeli:

User1; User2; Corr
1; 2; Corr(1,2)
...

Algorytm powinien brać pod uwagę wyłącznie userów, którzy mają choć jeden produkt, który obaj ocenili, produkty ocenione wyłącznie przez jedną osobę nie mają być uwzględniane podczas liczenia współczynników.

Dodam tylko, że ocen w tabeli pierwszej może być ponad 200 mln. Userów może być ponad 500 tys. Produktów może być ponad 100 tys.
Macierz jest bardzo rzadka.

Jeżeli ktoś słyszał o jakiejś sprytnej metodzie generowania takiej macierzy lub o bibliotece lub kodzie, który realizuje optymalny algorytm proszę o info.

Pozdrawiam i z góry dzięki za pomoc.