2014-01-15 36 views
-1

我想从数据库中下载几个特定的​​DNA序列。 (http://medicago-mutant.noble.org/mutant/FNBline1.php?id=NF-FN+8113) 我可以轻松解析该页面上的静态链接,并关注它们,但是从下一页我无法获取我想要下载的文件的链接(http://gb.sc.noble.org/cgi-bin/gb2/gbrowse/medicago3_5/?name=CHR02FS001028027)它位于“Go”按钮下。有没有办法获得这些信息,或自动推送该按钮? 该按钮会触发一个javascript,打开一个新窗口并立即开始下载该文件。 我一直在使用urllib2下载网站,但它似乎没有任何意义来解析链接的源代码。Python:抓取网页:需要帮助抓取特定链接或自动点击按钮

+0

你在用什么刮? (Scrapy等?)这将有助于澄清您正在寻找哪些帮助工具,或者如果您愿意切换库。 – DreadPirateShawn

+0

我使用urllib2模块,但我绝对开放任何解决方案。 – szabadkai

+0

另外,你知道“Go”按钮是否打开一个新窗口,立即开始下载,触发JavaScript事件等?任何有关您当前使用的其他信息(例如urllib2)以及您遇到的具体问题将是理想的问题,以便帮助任何可能提供帮助的人。就目前而言,这个问题有可能导致结果过于开放。 – DreadPirateShawn

回答

0

首先,网站提供了一个链接,下载所有文件的tar球?

我对urllib2没有经验,但以我的经验硒(http://docs.seleniumhq.org/)应该能够很容易地做到这一点。只需打开Selenium IDE(一个浏览器插件)并记录您想要下载的链接的ID,然后使用python将其自动化。硒网站提供了详细的说明(http://docs.seleniumhq.org/docs/)。你也可以在SO上搜索,因为这里有很多答案。

还有很多其他的工具,如Watir,Sahi,WatiN等等。你可以在这里找到一个不完整的列表:Web Automation Tool和这里:http://en.wikipedia.org/wiki/List_of_web_testing_tools