我维护一个网站显示我的大学组织的出版物。从网站抓取PDF文件?
我写了一个快速和肮脏的Ruby脚本解析包含此数据(我手动抓住从科学网站ISI网)一个CSV文件,并在HTML中的一个不错的格式显示。
CSV文件中没有PDF文件的直接链接。取而代之的是,我可以使用doi.org的信息,该信息转发到真实页面(由期刊托管),并提供PDF链接。
我希望能够为CSV文件中的每个出版物转到该网页并获取PDF。
我从来没有这样做过。在终端中使用wget,这可以正常工作,除了期刊网站上的HTML链接仅仅是“/ link info”,没有TLD信息。
任何人都可以推荐一个简单的方法来解决这个问题吗?
使用实际的gui浏览器是真正的矫枉过正,只是下载文件。你也应该介意,并不是每个脚本都是在gui系统上运行的。 – johannes 2009-09-30 14:31:56
@johannes:在评论之前,您可能需要考虑阅读答案。我还推荐了Mechanize,它*不需要图形环境。但是,正如我的回答所提及的,它并没有处理大量的Javascript。如果这是一个问题,我提供了一个替代解决方案。 – Pesto 2009-09-30 14:50:34