[linux] Text z pdf

Zdeno Podobný zdpo na mailbox.sk
Pátek Prosinec 7 17:58:38 CET 2001


Ahojte,

Nema z vas niekto skusenost s extrahovani slovenskeho textu z pdf?

Skusal som ps2ascii, ale vysledok je dost nepresvedcivy - pripomina mi to vysledok zo zleho OCR 
programu. napr. znak scaron niekedy ho zapise ako s^ niekedy ako o/oo (alebo tak nejak), niekedy neda 
medzeru medzi slova, niekedy vynecha pismeno...

Skusal som to pod win (ghostscript 7.0), ale vysledok bol este horsi. Kopirovanie z xpdf je rovnako 
problematicke - niektore slovenske znaky nahradi medzerov 


Zdeno

PS: Neviete ake kodovanie sa pouziva v pdf?






Další informace o konferenci linux