konto usunięte
Temat: Parsowanie stron, wydajność serwera i język - dyskusja
Witam ponownie.Tym razem zastanawia mnie inny problem wydajnościowy i chciałbym poradzić się forumowiczów odnośnie zastosowania najlepszego i najwydajniejszego rozwiązania. Założenia są następujące. Mam tabelę z polami: ADRES_WWW, KEY, FLAGA. Rekordów w bazie jest powiedzmy 1.000-3.000. Potrzebuję cronem załóżmy co 5 sek pobierać poszczególny rekord (za każdym razem następny) następnie z wyciągniętego ADRES_WWW, sparsować podaną tam stronę pod kątem wystąpienia w niej łańcucha znaków określonego przez KEY. FLAGA to pole przyjmujące wartości {0,1,2}. Jeśli dana strona zawiera KEY to ustawiamy FLAGA na 1, jeśli nie to na 2. Brak sprawdzenia danej strony to FLAGA=0. Po sprawdzeniu wszystkich rekordów w bazie następuje wysłanie do admina @ z informacjami o pozycjach z FLAGA=2, a następnie zmiana FLAGA na 0 dla wszystkich rekordów i zabawa zaczyna się od nowa!
To są założenia i mój pomysł na mechanizm sprawdzania czy wszystkie serwisy, które posiadają mój widget mają odpowiedni kod na stronie (czy go nie usunęli powodując tym samym manipulacje). Tyle co mogę powiedzieć.
Pytanie:
- czy jest to przy tej ilości serwisów (1-3k) wydajne?
- czy ważny jest dobór języka skryptowego(PHP czy do takich zadań lepiej jednak Python,PERL)?
- może ktoś ma rozsadniejszą metodę na rozwiązanie tego problemu?
Z góry dzięki za podpowiedzi i liczę na owocną dyskusję jak przy ostatnim moim temacie o wydajności na tej grupie.
Pozdrawiam,
Piotr Parzentny.