Class Myspider1
#do something....
Class Myspider2
#do something...
以上是我的spider.py文件的体系结构。我试图首先运行Myspider1,然后根据一些条件运行Myspider2倍数。我怎么能这样做?有小费吗?依次运行多个Spider
configure_logging()
runner = CrawlerRunner()
def crawl():
yield runner.crawl(Myspider1,arg.....)
yield runner.crawl(Myspider2,arg.....)
crawl()
reactor.run()
我想使用这种方式,但不知道如何运行它。我应该在cmd上运行cmd(什么命令?)或者只是运行python文件?
非常感谢!
您只需运行python脚本本身。这就是CrawlerProcess + CrawlerRunner构建的类。但请澄清你谈论的条件。在运行脚本之前是定义了这些条件,还是在第一个Spider类运行期间/从这些条件中检索到这些条件? – dron22
感谢您的回复,对于这两个蜘蛛,第一个蜘蛛Myspider1负责抓取一系列链接,第二个蜘蛛Myspider2负责抓取以前链接中缺少的链接(链接用于Spider1),所以我必须首先运行第一个蜘蛛,一旦它关闭,找到是否有任何网址缺失,并选择打开蜘蛛2或不。 –