Adam Ł.

Adam Ł. Centrum Kształcenia

Temat: Libreoffice. Problem z kopiowanym tesktem z pliku pdf.

Jak poprawnie skopiować tekst z pliku PDF do LibO - tak aby zachować "ogonki" wraz z poprawnym formatowaniem?
LibreOffice 4.2.6.3,
System: Ubuntu 14.04

konto usunięte

Temat: Libreoffice. Problem z kopiowanym tesktem z pliku pdf.

Nie jestem na 100% pewny, nie jestem aż takim znawcą LibreOffice czy pakietu Microsoft Office... a również nie mam czasu używać Linuxa, to wypowiedź odniosę do WinXP...

Te ogonki czasem pewnie można naprawić poprzez Menu ► Edycja ► Wklej specjalnie ► i pewnie wybierzemy formatowany tekst RTF lub nie sformatowany, czasem działa...

Pewnie gdzieś by była w LO jakaś funkcja kodowania tekstu...

Co do styli, to raczej wątpię (ale pewny nie jestem), raczej program w którym jest składany dokument PDF ma inne style i zabezpiecza przed skopiowaniem, bez posiadania pliku źródłowego... Do jakiegoś prostego rozbioru PDF na jakieś czynniki pierwsze służą pewnie nie które programy OCR (do skanowania dokumentów ze skanera ale również mają opcję rozpoznawania plików PDF), myślę że jakieś programy do składania DTD te lepsze potrafiłyby by coś więcej... ja jednak używałem Scribusa a ten sobie nie radził... sam z LO sobie na pewno nie poradzi...
Błażej S.

Błażej S. Administrator
Systemu ERP, Work
Service S.A.

Temat: Libreoffice. Problem z kopiowanym tesktem z pliku pdf.

prędzej te ogonki w PDF są sformatowane jako nie znaki z zakresu UNICODE czy jakiegokolwiek innego z polskimi znakami, są znane jako GLYPH
http://www.glyphandcog.com/textext.html
Dominik Tabisz

Dominik Tabisz Filozof
metaloplastyk
grafik.

Temat: Libreoffice. Problem z kopiowanym tesktem z pliku pdf.

Gdyby pakiet xpdf z linku Błażeja Skóry wydawał się zbyt niewygodny, to spróbuj przemielić pdfa programem Calibre i przełożyć w nim na txt, rtf lub epub (epuba rozpakowujesz, bo to tylko archiwum, i masz tekst w html). Gdyby Calibre nie chciał wziąć pliku to masz zaawansowaną ręczną edycje pdfa (ominiesz i zabezpieczenia i wyciągniesz wszystko co tylko się da z pliku). To niestety opcja hardcore.

Formatowania strony/styli nie da się z PDFa wyciągnąć, bo tam masz inny poziom abstrakcji: pdf widzi "Gruba czcionka 2 cm od lewego marginesu" a Libre Office widzi "nagłówek 2". Calibre może próbować to zgadywać, z różnym skutkiem.

Problem z GLYPH da się rozwiązać przez:
1) Wklejenie tekstu do kedit i takie przestawianie lokalizacji i kodowania aż tekst zacznie wyglądać znośnie. Potem "zapisz jako" i na tej kopii znowu ustawiasz lokalizacje i kodowanie na własciwe dla Twojej zmiennej LOCALE
2)"znajdź i zamień". Gdyby Office nie chciał rozpoznać glifu, to spróbuj edytorem szesnastkowym na tekście skopiowanym i wrzuconym w zwykły dokument tekstowy (txt). Wyszukujesz kłopotliwy znak (będą to zwykle 2 do 4 symboli z zakresu 0123456789abcdef , w pasku po prawej stronie tych symboli zamiast liter w tym momencie jest ".." ) Najeżdżasz na to kursorem i dajesz "znajdź i zamień" gdzie wstawiasz odpowiadający kod (np z utf8)
Adam Ł.

Adam Ł. Centrum Kształcenia

Temat: Libreoffice. Problem z kopiowanym tesktem z pliku pdf.

Jednym słowem, najlepiej żeby, któryś ze schowków systemowych bezbłędnie konwertował GLYPH na UNICODE - taka tam funkcjonalność.
[edit]
Import pdf - bynajmniej w mojej instalacji Ubuntu dla libreoffice - domyślnie.Ten post został edytowany przez Autora dnia 12.11.14 o godzinie 20:19
Błażej S.

Błażej S. Administrator
Systemu ERP, Work
Service S.A.

Temat: Libreoffice. Problem z kopiowanym tesktem z pliku pdf.

może to?
http://www.jusuchyne.com/codingforme/applications/libr...

Następna dyskusja:

Mam problem..znowu.. ;)




Wyślij zaproszenie do