如何阅读R中的pdf文件

有人可以帮助我让我知道如何阅读pdf文件，其中包括一些表格。我想提取表中的数据，并安排到csv文件。如何阅读R中的pdf文件

非常感谢

2016-07-26 許曉雯

可能重复http://stackoverflow.com/questions/3852354/extracting-text-data-from-pdf-files –

+功能有提到：HTTP：/ /www.inside-r.org/packages/cran/tm/docs/readPDF –

欢迎来到Stack Overflow！请通过[tour]（http://stackoverflow.com/tour），[帮助中心]（http://stackoverflow.com/help）和[如何提出一个好问题]（http：// stackoverflow.com/help/how-to-ask）章节，了解本网站的工作原理，并帮助您改善当前和未来的问题，从而帮助您获得更好的答案。最好的方法是在问这里之前做一个Google或SO搜索，如果你有一个特定的问题，比如你尝试了一些东西，但它不起作用，那么对于这种格式来说这将是一个更合适的问题。 –

一个很好的描述一步一步从弗吉尼亚大学，你会发现在Reading PDF files into R for text mining。我在下面提取的一些信息。

请按照上述链接中的安装说明进行操作。

完成后，您就可以使用readPDF创建您的功能来读取PDF文件。无论你喜欢什么，你都可以命名该函数，例如Rpdf。

Rpdf <- readPDF(control = list(text = "-layout"))

readPDF函数有一个控制参数，我们用它来将选项传递给我们的PDF提取引擎。这必须以列表的形式出现，因此我们将选项包含在列表函数中。 xpdf引擎有两个控制参数：info和text。 info将参数传递给pdfinfo.exe，文本将参数传递给pdftotext.exe。我们只传递一个参数设置为pdftotext：“-layout”。这告诉pdftptext.exe保持（尽可能最好）文本的原始物理布局。

使用Rpdf函数，我们可以继续阅读意见的文本。我们想要做的是将PDF文件转换为文本并将它们存储在语料库中，这基本上是一个文本数据库。我们可以做的一切，用下面的代码：

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))

来源

2016-07-26 16:10:11

如何阅读R中的pdf文件

回答

相关问题