2012-02-24 41 views
-2

我正在使用iTextSharp来阅读PDF文件。我正在使用pdfreader.GetPageContent()PdfTextExtractor.GetTextFromPage()方法使用简单的文本提取策略。itextsharp不工作

这两种方法都不能读取所有的pdf。

对于一个pdf,如果我使用GetTextFromPage它的引发超出了数组异常的边界(该页面有子弹标记和特殊字符)。

如何解决这个问题?

回答

0

最近有几个错误是固定的,所以你有两个选择:

  1. 等待5.1.4被释放
  2. 下载并建立the latest SVN自己。

如果您在构建最新的SVN后仍然有问题,请在sourceforge提交错误报告或订阅mailing list并在那里发布。

最近的错误修复可能会或可能不会解决您的特定问题。人们不断地抱怨解析器,但是很多人不愿意提交重现问题的样本PDF。 换句话说,如果修复程序无法解决您的问题,并且您不愿意提交错误报告和P​​DF样本,那么您就不幸运了。

+0

仅供参考:请不要在sourceforge提交错误报告,邮件列表也已停用。与许多其他开源项目一样,iText已经离开SourceForge。如果你认为你发现了一个bug,只需在StackOverflow上报告。或者如果您是客户,请在iText JIRA中报告问题。 – 2016-01-03 15:19:29

+1

@AmedeeVanGasse我收到我的个人收件箱中的错误报告。我已将它转发给JIRA。注意:kuujinbo多年来一直使用iTextSharp,他通过将iText在Action 2nd Edition中的所有iText示例移植到C#中贡献了自己的力量。 – 2016-02-14 12:10:23