使用网页收集从PDF中提取数据

我如何使用网页收集从PDF中提取数据？我在页面中获取所有相关的PDF url，但我无法从这些Pdf中提取数据。我正在使用Web Harvest version 2.0来提取Pdfs url。请帮忙。使用网页收集从PDF中提取数据

我如何将pdfcommand收集到网页中以获取文本？有没有其他的方式可以不用运行任何批处理文件？

2014-04-15 user3536614

我认为网收成是不够的。你应该使用WGET和pdfbox来获得你的结果。首先在WGET或Web收获本身的帮助下，通过您的URL将所有PDF下载到一个文件夹中。然后运行pdfbox命令从PDF获取文本。您可以从URL http://pdfbox.apache.org/commandline/获得有关pdfbox的一些知识。你也可以创建一个批处理文件来按顺序运行这些东西。

来源

2014-04-16 05:21:15

使用网页收集从PDF中提取数据

回答

相关问题