PDF文本转换结果为乱码

我使用几个不同的程序将PDF文件转换为txt文件。通常，这会导致文字很好看。有时候，事实并非如此。我有一组转换通过以下方式文件：PDF文本转换结果为乱码

文字我可以读：您的帐户摘要

复制，粘贴到记事本++： copyPasteIntoNotepadPlusPlus

Ghostscript的：似乎是一个垃圾文件。完整的xEF,xBF个字符。

XPDF：给我一个完整的东西，像这样的文件：Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

这似乎是复制粘贴的方法是最接近于英语，因为它似乎每个这些字符代表一个字母字符。 SO == Y，SI == o，STX == u等

我想将这些pdf文件转换为英文文本。

2013-09-10 Ben Walker

这已被问无数次在SO。简短的回答：你的文件不允许文本提取，而是使用OCR库。 – yms

但是，如果复制粘贴方法实际上是某种字符表示形式，那么我会假设我可以提取该代码，然后将其转换为真实文本。我错了吗？ –

不是真的......它们可能只是指示一组对象的索引，这些对象告诉PDF阅读器如何绘制每个字符，而不显示任何有关所表示文本的更多信息。请在SO中寻找关于PDF文本提取的问题，这里有很多好的答案涵盖了这些问题。 – yms

它通常是Unicode的符号看起来像一个

XEF，XBF

。您需要从Unicode到用户友好字母的额外转换。

2013-09-11 03:13:04 stanlyF

回答