[linux] pdf phraser
Matej Pivoluska
pivoluska na matfyz.cz
Čtvrtek Březen 11 18:45:12 CET 2004
Dňa Thursday 11 March 2004 16:33 michal_lackovic na sk.schneider-electric.com
napísal(a):
> ahoj,
> prave ten pouzivam, teda ak myslis ten co je sucastou xpdf projektu.
> Pouzivam to pri indexovani dokumentacie, ale s parametrom latin 2 to aj
> tak nerobi korektne
Treba to vediet pouzivat :-) obcas celkom pomoze nastavit pre pdftotext
parameter -enc na latin2 (lebo defaultne je latin1) a este mat spravne
nakonfigurovanu unicode mapu v ~/.xpdfrc
unicodeMap Latin2 /usr/share/xpdf/latin2/Latin2.unicodeMap
(tuto mapu by bolo vhodne mat nainstalovanu, obcas je to balicek xpdf-latin2)
Ekvivalent pre parameter -enc je textEncoding v ~/.xpdfrc
(man pdftotext, man xpdfrc)
Tym sa, zial, vsetky problemy nevyriesia. Napr. casto je problem so zbytocnymi
medzerami uprostred slov. O "premanglovanych" pismach ani nehovorim. (Ale to
sa da obcas vyriesit cez sed alebo tr.)
Ad Darkie: Ked som naposledy luskal zdrojaky Kofficu, boli tam, myslim, aj
zdrojaky xpdf... :-)
mP
--
http://pivoluska.matfyz.cz/weblog
Další informace o konferenci linux