2013-09-10 94 views
2

我使用几个不同的程序将PDF文件转换为txt文件。通常,这会导致文字很好看。有时候,事实并非如此。我有一组转换通过以下方式文件:PDF文本转换结果为乱码

文字我可以读:您的帐户摘要

复制,粘贴到记事本++: copyPasteIntoNotepadPlusPlus

Ghostscript的:似乎是一个垃圾文件。完整的xEF,xBF个字符。

XPDF:给我一个完整的东西,像这样的文件:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

这似乎是复制粘贴的方法是最接近于英语,因为它似乎每个这些字符代表一个字母字符。 SO == Y,SI == o,STX == u等

我想将这些pdf文件转换为英文文本。

+0

这已被问无数次在SO。简短的回答:你的文件不允许文本提取,而是使用OCR库。 – yms

+0

但是,如果复制粘贴方法实际上是某种字符表示形式,那么我会假设我可以提取该代码,然后将其转换为真实文本。我错了吗? –

+0

不是真的......它们可能只是指示一组对象的索引,这些对象告诉PDF阅读器如何绘制每个字符,而不显示任何有关所表示文本的更多信息。请在SO中寻找关于PDF文本提取的问题,这里有很多好的答案涵盖了这些问题。 – yms

回答

1

它通常是Unicode的符号看起来像一个

XEF,XBF

。您需要从Unicode到用户友好字母的额外转换。