2011-11-11 25 views
2

目前,我正在使用Puma.NET并将扫描的多页面tif转换为可搜索的pdf文件。但是,是否有任何开源库提供通过此文本pdf生成图像的功能?这种方式原始的tif文件以pdf格式保存,并且ocr文本被隐藏,但可用于选择或搜索。如何在PDF中添加隐藏的ocr文本


感谢Andrew的快速响应。如果我现有的图书馆无法实现结果,我一定会给QuickPDF一个镜头。 :-)

顺便说一句,我刚刚有一个更好的主意。我想我可以使用iTextSharp来完成。但是,我有2个问题,因为我是iTextSharp的新手。

1)如何在pdf中添加不同大小的页面? 2)如何使用SetAbsolutePosition或其他函数在特定页面添加图像图层?

如果任何人都可以为我提供iTextSharp代码以上问题,那就太好了!

回答

1

你可以使用Quick PDF Library LITE,它应该有足够的功能来做你需要的。它不是开源的,但可以免费使用。

http://www.quickpdflibrary.com/free/lite.php

您将需要使用以下功能

QP.SetPageSize(); QP.SetOrigin(); QP.AddImageFromFile(); QP.SetTextSize(); QP.DrawTextBox(); QP.SetTextColor(); QP.NewPage();

您需要在添加图像之前添加白色文本对象。

Andrew。

声明:我为此产品做了一些咨询工作。

+0

我已经成功添加图像图层在我的OCR'd pdf文本格式和位置不保留。 Quick PDF LITE版本有可能吗? –

+0

如果您具有每段OCR数据的坐标,则可以使用DrawTextBox(x,y,w,h,文本,对齐方式)非常准确地放置不可见文本。 您使用哪种OCR引擎?如果您使用的是Tesseract 2.xx,那么很可能您无法访问OCR文本的x,y,w,h位置。 –

+0

不幸的是我没有坐标。我想我会一直保持这个问题,因为现在似乎没有免费的解决方案。 –