我正在使用生成'.ps'文件的Postscript打印机,并且正在使用我的Linux机器中的'ps2pdf'命令将该.ps文件转换为.pdf。这是在这里生成的文件,它的内容是不可选择和可复制的。当我尝试使用apache Tika从同一pdf文件中提取内容时,它返回一个空字符串(表示无法提取)。我认为这可能是问题一些字体,所以我也安装了一些新的字体,但仍然没有为我工作。无法使用tika从pdf文件中提取文本内容
我无法找出问题所在。无论是打印机驱动程序还是ghostscript(用于将'.ps'转换为'.pdf')的问题,还是字体问题-其他。
使用tika检索内容时,它会打印一些警告(不是错误),如下所示。
WARN No Unicode mapping for CID+1 (1) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+2 (2) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+3 (3) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+4 (4) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+5 (5) in font WKQJKU+ArialNarrow-Identity-H
....
任何帮助预先感谢.Thanks。
您好@KenS,非常感谢您的快速响应,在我的问题'ps2pdf'是ghostscript实用程序和打印机是在linux机器上。我不知道如何上传文件以供参考。如果您分享您的邮件ID我也可以给你发送文件。 – prasad
你不能在这里发布文件,最好把它放在DropBox或其他东西,并在这里发布的URL,然后除了我以外的人可以看。你使用的是什么版本的Ghostscript,你从哪里得到它(包,自己从源头构建等)?如果你绝对必须使用电子邮件,你可以发送到垃圾邮件点网(肯定不想在这里明显的电子邮件地址) – KenS
嗨@KenS,我的ghostscript版本是9.16。在这里,我分享了收件箱链接到postscript和pdf文件。 https://www.dropbox.com/s/jq5m4dkz175o0nk/VirtualPrinter_16_08_2016_16_09_20_865.ps?dl=0,https://www.dropbox.com/s/y8jo3whu2kw12sr/VirtualPrinter_16_08_2016_16_09_24_896.pdf?dl=0 – prasad