如何在PDF中添加隐藏的ocr文本

目前，我正在使用Puma.NET并将扫描的多页面tif转换为可搜索的pdf文件。但是，是否有任何开源库提供通过此文本pdf生成图像的功能？这种方式原始的tif文件以pdf格式保存，并且ocr文本被隐藏，但可用于选择或搜索。如何在PDF中添加隐藏的ocr文本

感谢Andrew的快速响应。如果我现有的图书馆无法实现结果，我一定会给QuickPDF一个镜头。 :-)

顺便说一句，我刚刚有一个更好的主意。我想我可以使用iTextSharp来完成。但是，我有2个问题，因为我是iTextSharp的新手。

1）如何在pdf中添加不同大小的页面？ 2）如何使用SetAbsolutePosition或其他函数在特定页面添加图像图层？

如果任何人都可以为我提供iTextSharp代码以上问题，那就太好了！

你可以使用Quick PDF Library LITE，它应该有足够的功能来做你需要的。它不是开源的，但可以免费使用。

您将需要使用以下功能

QP.SetPageSize（）; QP.SetOrigin（）; QP.AddImageFromFile（）; QP.SetTextSize（）; QP.DrawTextBox（）; QP.SetTextColor（）; QP.NewPage（）;

您需要在添加图像之前添加白色文本对象。

Andrew。

声明：我为此产品做了一些咨询工作。

2011-11-11 11:03:40

我已经成功添加图像图层在我的OCR'd pdf文本格式和位置不保留。 Quick PDF LITE版本有可能吗？ –

如果您具有每段OCR数据的坐标，则可以使用DrawTextBox（x，y，w，h，文本，对齐方式）非常准确地放置不可见文本。您使用哪种OCR引擎？如果您使用的是Tesseract 2.xx，那么很可能您无法访问OCR文本的x，y，w，h位置。 –

不幸的是我没有坐标。我想我会一直保持这个问题，因为现在似乎没有免费的解决方案。 –

回答