Python：抓取网页：需要帮助抓取特定链接或自动点击按钮

-1

我想从数据库中下载几个特定的DNA序列。（http://medicago-mutant.noble.org/mutant/FNBline1.php?id=NF-FN+8113）我可以轻松解析该页面上的静态链接，并关注它们，但是从下一页我无法获取我想要下载的文件的链接（http://gb.sc.noble.org/cgi-bin/gb2/gbrowse/medicago3_5/?name=CHR02FS001028027）它位于“Go”按钮下。有没有办法获得这些信息，或自动推送该按钮？该按钮会触发一个javascript，打开一个新窗口并立即开始下载该文件。我一直在使用urllib2下载网站，但它似乎没有任何意义来解析链接的源代码。Python：抓取网页：需要帮助抓取特定链接或自动点击按钮

来源

2014-01-15 szabadkai

你在用什么刮？（Scrapy等？）这将有助于澄清您正在寻找哪些帮助工具，或者如果您愿意切换库。 – DreadPirateShawn

我使用urllib2模块，但我绝对开放任何解决方案。 – szabadkai

另外，你知道“Go”按钮是否打开一个新窗口，立即开始下载，触发JavaScript事件等？任何有关您当前使用的其他信息（例如urllib2）以及您遇到的具体问题将是理想的问题，以便帮助任何可能提供帮助的人。就目前而言，这个问题有可能导致结果过于开放。 – DreadPirateShawn

首先，网站提供了一个链接，下载所有文件的tar球？

我对urllib2没有经验，但以我的经验硒（http://docs.seleniumhq.org/）应该能够很容易地做到这一点。只需打开Selenium IDE（一个浏览器插件）并记录您想要下载的链接的ID，然后使用python将其自动化。硒网站提供了详细的说明（http://docs.seleniumhq.org/docs/）。你也可以在SO上搜索，因为这里有很多答案。

还有很多其他的工具，如Watir，Sahi，WatiN等等。你可以在这里找到一个不完整的列表：Web Automation Tool和这里：http://en.wikipedia.org/wiki/List_of_web_testing_tools。

来源

2014-01-15 22:34:43 lindenrovio

Python：抓取网页：需要帮助抓取特定链接或自动点击按钮

回答

相关问题