2014-04-15 42 views
0

我如何使用网页收集从PDF中提取数据?我在页面中获取所有相关的PDF url,但我无法从这些Pdf中提取数据。我正在使用Web Harvest version 2.0来提取Pdfs url。请帮忙。使用网页收集从PDF中提取数据

我如何将pdfcommand收集到网页中以获取文本?有没有其他的方式可以不用运行任何批处理文件?

回答

0

我认为网收成是不够的。你应该使用WGET和pdfbox来获得你的结果。首先在WGET或Web收获本身的帮助下,通过您的URL将所有PDF下载到一个文件夹中。然后运行pdfbox命令从PDF获取文本。您可以从URL http://pdfbox.apache.org/commandline/获得有关pdfbox的一些知识。你也可以创建一个批处理文件来按顺序运行这些东西。