因此,我设法编写了一个蜘蛛,从这个site中提取“视频”和“英文抄本”的下载链接。看着cmd窗口,我可以看到所有正确的信息都被刮掉了。Python scrapy - 从回调到csv产生初始项目和项目
我遇到的问题是,输出CSV文件只包含了“视频”链接,而不是“英语成绩单”链接(即使你可以看到它在cmd窗口被刮掉)。
我已经尝试了其他帖子的一些建议,但他们都没有工作。
下面的图片是我想怎么输出看起来像: CSV Output Picture
这是我目前的蜘蛛代码:
import scrapy
class SuhbaSpider(scrapy.Spider):
name = "suhba2"
start_urls = ["http://saltanat.org/videos.php?topic=SheikhBahauddin&gopage={numb}".format(numb=numb)
for numb in range(1,3)]
def parse(self, response):
yield{
"video" : response.xpath("//span[@class='download make-cursor']/a/@href").extract(),
}
fullvideoid = response.xpath("//span[@class='media-info make-cursor']/@onclick").extract()
for videoid in fullvideoid:
url = ("http://saltanat.org/ajax_transcription.php?vid=" + videoid[21:-2])
yield scrapy.Request(url, callback=self.parse_transcript)
def parse_transcript(self, response):
yield{
"transcript" : response.xpath("//a[contains(@href,'english')]/@href").extract(),
}
[Scrapy CSV输出 “随机” 缺场(可能的重复https://stackoverflow.com/questions/41917108/scrapy-csv-output-randomly-missing - 场) –