目前,我正在使用Puma.NET并将扫描的多页面tif转换为可搜索的pdf文件。但是,是否有任何开源库提供通过此文本pdf生成图像的功能?这种方式原始的tif文件以pdf格式保存,并且ocr文本被隐藏,但可用于选择或搜索。如何在PDF中添加隐藏的ocr文本
感谢Andrew的快速响应。如果我现有的图书馆无法实现结果,我一定会给QuickPDF一个镜头。 :-)
顺便说一句,我刚刚有一个更好的主意。我想我可以使用iTextSharp来完成。但是,我有2个问题,因为我是iTextSharp的新手。
1)如何在pdf中添加不同大小的页面? 2)如何使用SetAbsolutePosition或其他函数在特定页面添加图像图层?
如果任何人都可以为我提供iTextSharp代码以上问题,那就太好了!
我已经成功添加图像图层在我的OCR'd pdf文本格式和位置不保留。 Quick PDF LITE版本有可能吗? –
如果您具有每段OCR数据的坐标,则可以使用DrawTextBox(x,y,w,h,文本,对齐方式)非常准确地放置不可见文本。 您使用哪种OCR引擎?如果您使用的是Tesseract 2.xx,那么很可能您无法访问OCR文本的x,y,w,h位置。 –
不幸的是我没有坐标。我想我会一直保持这个问题,因为现在似乎没有免费的解决方案。 –