[linux] Text z pdf
Zdeno Podobný
zdpo na mailbox.sk
Pátek Prosinec 7 17:58:38 CET 2001
Ahojte,
Nema z vas niekto skusenost s extrahovani slovenskeho textu z pdf?
Skusal som ps2ascii, ale vysledok je dost nepresvedcivy - pripomina mi to vysledok zo zleho OCR
programu. napr. znak scaron niekedy ho zapise ako s^ niekedy ako o/oo (alebo tak nejak), niekedy neda
medzeru medzi slova, niekedy vynecha pismeno...
Skusal som to pod win (ghostscript 7.0), ale vysledok bol este horsi. Kopirovanie z xpdf je rovnako
problematicke - niektore slovenske znaky nahradi medzerov
Zdeno
PS: Neviete ake kodovanie sa pouziva v pdf?
Další informace o konferenci linux