2011-09-20 20 views
1

我有一个印度歌曲的歌词集,需要用他们的发行年份来标记他们正在进行的实验。如何通过在Google上搜索来抓取特定域的链接?

有一个网站(lyricsindia.net),有一个详细的数据库这些歌词与年,但不幸的歌词不能在网站上搜索。相反,当我将歌词的一部分作为搜索字符串进行搜索时,lyricsindia.net上的歌曲链接总是处于前10名的结果中。

现在,我想知道是否有可能使用scrapy这样的网络爬行框架来使用搜索字符串作为抓取的起点。我遇到的每个Scrapy教程都是从一个起始URL开始的。

回答

0

您的搜索字符串可能是Scrapy的网址的一部分。像google.com?q=my+string

或者,您可以检索搜索表单,并与你的字符串填充它,像:

return [FormRequest.from_response(response, 
      formdata={'search': 'you\'re search string'}, 
      callback=self.parse)] 

我敢肯定,Scrapy可以做什么你想做。

相关问题