0
这是我第一次使用scrapy的刮板。从嵌套定位标记中抓取网址和标题
我想取消视频网址,标题从https://www.google.co.in/trends/hotvideos#hvsm=0网站。
import scrapy
from scrapy.item import Item, Field
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class CraigslistItem(Item):
title = Field()
link = Field()
class DmozSpider(scrapy.Spider):
name = "google"
allowed_domains = ["google.co.in"]
start_urls = [
"https://www.google.co.in/trends/hotvideos#hvsm=0"
]
def parse(self, response):
#for sel in response.xpath('//body/div'):
hxs = HtmlXPathSelector(response)
sites = hxs.xpath("//span[@class='single-video-image-container']")
items = []
for sel in response.xpath("//span[@class='single-video-image-container']"):
item = CraigslistItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
items.append(item)
print items
一般来说,我做错了什么将是非常可观的。
由于'POST'请求会显示这些影片列表,因此您无法使用此功能。 尝试使用scrapy [form-request](http://doc.scrapy.org/en/latest/topics/request-response.html#request-usage-examples) – Jithin
@Jathin:谢谢,但我真的无法得到您。请你详细说明 – nlper
尽管你正在向这个[url](https://www.google.co.in/trends/hotvideos#hvsm=0)提出请求来获取电影列表,实际上在内部是一个'ajax-post-请求'被触发,并作为响应,你得到的电影列表在该页面 – Jithin