2016-07-26 179 views
0

有人可以帮助我让我知道如何阅读pdf文件,其中包括一些表格。我想提取表中的数据,并安排到csv文件。如何阅读R中的pdf文件

非常感谢

+2

可能重复http://stackoverflow.com/questions/3852354/extracting-text-data-from-pdf-files –

+1

+功能有提到:HTTP:/ /www.inside-r.org/packages/cran/tm/docs/readPDF –

+0

欢迎来到Stack Overflow!请通过[tour](http://stackoverflow.com/tour),[帮助中心](http://stackoverflow.com/help)和[如何提出一个好问题](http:// stackoverflow.com/help/how-to-ask)章节,了解本网站的工作原理,并帮助您改善当前和未来的问题,从而帮助您获得更好的答案。 最好的方法是在问这里之前做一个Google或SO搜索,如果你有一个特定的问题,比如你尝试了一些东西,但它不起作用,那么对于这种格式来说这将是一个更合适的问题。 –

回答

2

一个很好的描述一步一步从弗吉尼亚大学,你会发现在Reading PDF files into R for text mining。我在下面提取的一些信息。

请按照上述链接中的安装说明进行操作。

完成后,您就可以使用readPDF创建您的功能来读取PDF文件。无论你喜欢什么,你都可以命名该函数,例如Rpdf。

Rpdf <- readPDF(control = list(text = "-layout")) 

readPDF函数有一个控制参数,我们用它来将选项传递给我们的PDF提取引擎。这必须以列表的形式出现,因此我们将选项包含在列表函数中。 xpdf引擎有两个控制参数:info和text。 info将参数传递给pdfinfo.exe,文本将参数传递给pdftotext.exe。我们只传递一个参数设置为pdftotext:“-layout”。这告诉pdftptext.exe保持(尽可能最好)文本的原始物理布局。

使用Rpdf函数,我们可以继续阅读意见的文本。我们想要做的是将PDF文件转换为文本并将它们存储在语料库中,这基本上是一个文本数据库。我们可以做的一切,用下面的代码:

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))