[linux] pdf phraser

Matej Pivoluska pivoluska na matfyz.cz
Čtvrtek Březen 11 18:45:12 CET 2004


Dňa Thursday 11 March 2004 16:33 michal_lackovic na sk.schneider-electric.com 
napísal(a):
> ahoj,
> prave ten pouzivam, teda ak myslis ten co je sucastou xpdf projektu.
> Pouzivam to pri indexovani dokumentacie, ale s parametrom latin 2 to aj
> tak nerobi korektne

Treba to vediet pouzivat :-) obcas celkom pomoze nastavit pre pdftotext 
parameter -enc na latin2 (lebo defaultne je latin1) a este mat spravne 
nakonfigurovanu unicode mapu v ~/.xpdfrc

unicodeMap      Latin2  /usr/share/xpdf/latin2/Latin2.unicodeMap
(tuto mapu by bolo vhodne mat nainstalovanu, obcas je to balicek xpdf-latin2)

Ekvivalent pre parameter -enc je textEncoding v ~/.xpdfrc

(man pdftotext, man xpdfrc)

Tym sa, zial, vsetky problemy nevyriesia. Napr. casto je problem so zbytocnymi 
medzerami uprostred slov. O "premanglovanych" pismach ani nehovorim. (Ale to 
sa da obcas vyriesit cez sed alebo tr.)

Ad Darkie: Ked som naposledy luskal zdrojaky Kofficu, boli tam, myslim, aj 
zdrojaky xpdf... :-)

mP
-- 
http://pivoluska.matfyz.cz/weblog



Další informace o konferenci linux