Temat: HTMLParser i duży plik

Witam.

Korzystam z klasy HTMLParser w module o tej samej nazwie.

"Karmię" go stringiem o długości 178 433 znaków (czyli znowu nie tak wiele), a on zachowuje się tak, jakby nie widział nic poza pierwszymi 322 linijkami kodu.

Jest jakiś limit długości dla tego parsera?
Grzegorz Śliwiński

Grzegorz Śliwiński Programista python

Temat: HTMLParser i duży plik

Oryginał jest w stringu, czy pliku? Sprawdź też, jak ci się zachowuje pamięć.

osobiście polecam użyć lxml i przeparsować plik iteracyjnie.
Michał Jastrzębski

Michał Jastrzębski Django-fu, phpjutsu,
sql-do

Temat: HTMLParser i duży plik

Ja działałem z większymi plikami za pomocą beautufulsoup i nie było problemów..

konto usunięte

Temat: HTMLParser i duży plik

moim zdaniem sprawdź czy html się waliduje, bo może parser się porostu "zgubił". 200 k znaczków to nie jest jakaś przerażająca liczba.

Ł

konto usunięte

Temat: HTMLParser i duży plik

Spróbuj użyć biblioteki Beautiful Soup które poprawia trochę wadliwy kod html. znając życie, to ten plik nie jest poprawny,stąd zbyt wcześnie zamyka węzły.

Temat: HTMLParser i duży plik

A nie... okazuje się, że leci do jakiegoś tam bajtu a resztę ignoruje. Rozwiązaniem okazało się podzielenie dokumentu na kawałki (u mnie 1024b) i ładowanie po kolei w pętli :)

Podobne tematy


Następna dyskusja:

HTMLParser i kodowanie




Wyślij zaproszenie do