从pdf文件中,我成功为pdf中的每个页面生成1个png图像。Ghostscript PDF to PNG:单词的字符间距在结果图像中变得混乱
问题是无论我使用什么设置,对于某些页面GhostScript会弄乱字体间距,使得在某些png中,一个单词看起来像是2或3个单词。
这是一个问题,因为我在evernote中使用这些文件,这会扰乱预期的搜索结果。因此,搜索“Providers”不会返回任何内容,因为在png文件中,它显示为“Pro vid e rs”(或“Users”显示为“Use rs”)。
Dropbox的链接显示在左侧的源PDF格式的原文截图,右边PNG产生 - >http://dl.dropbox.com/u/13267240/ScreenClip.png
我是新来的Ghostscript和很茫然,为什么发生这种情况。
这里是我使用(在Python)命令行:
CMD = “gswin%SC” %(SYS_PROCESSOR_ARCH)+“-q -dNOPAUSE -dBATCH -dPDFFitPage =真-sDEVICE = png16m -r %s“%(PNG_RES)+”-sOutputFile =“+'”%s \%s-pg - %% d。%s“%s”'%(outputdir,outputFileNamePrefix,suffix,pdfSourceFile)
或在运行时进行评估:
gswin64c -q -dNOPAUSE -dBATCH -dPDFFitPage = true -sDEVICE = png16m -r300X300 -sOutputFile =“C:\ EPTK-TMP \ 02-01-Introduction-pg-%d.png” “C:\ EPTK-TMP \ 02-01-Introduction.pdf”
你如何搜索Evernote中的PNG文本?是否有某种光学字符识别发生?目标仅仅是在Evernote中使用PDF文本吗? –
是的,永远在图像上做出伟大的OCR。实际上是为了产生相同的搜索结果到原始(pdf文档)。它与众不同的地方在于,与只搜索pdf文本的pdf搜索不同,我能够可靠地搜索出现在原始pdf文档中嵌入的任何图像上的字符(在png img中)。 – user1956808