Scrapy：穿越文档

这是我正在使用的文档的一部分的模型。我想要做的是先找到时间和成本要素，然后从中找到它们各自的价值。我试过各种轴选择器，但没有任何地方。我不直接去找时间和成本元素，我需要找到他们与他们相关的h4s。Scrapy：穿越文档

<ul class="events"> 
    <li id="event-123456" class=eventItem> 
    <div class="details">     
     <h4>Time</h4> 
     <div> 
     <p>17:00</p> 
     </div> 
     <h4>Cost</h4> 
     <div> 
     <p>10.00</p> 
     </div> 
    </div> 
    </li> 
    <li id="event-678901" class=eventItem> 
    <div class="details">     
     <h4>Time</h4> 
     <div> 
     <p>21:00</p> 
     </div> 
     <h4>Cost</h4> 
     <div> 
     <p>20.00</p> 
     </div> 
    </div> 
    </li> 
</ul>

这是解析器

def parse(self, response): 
     Events = response.xpath('//ul') 
     for event in Events: 
      item['cost'] = event.xpath(???) 
      item['time'] = event.xpath(???)

来源

2015-11-23 user3185563

following-sibling将帮助这里的骨架：

events = response.xpath('//ul[@class = "events"]/li') 
for event in events: 
    item = MyItem() 

    item['cost'] = event.xpath(".//h4[. = 'Cost']/following-sibling::div/p/text()").extract_first() 
    item['time'] = event.xpath(".//h4[. = 'Time']/following-sibling::div/p/text()").extract_first() 

    yield item

来源

2015-11-23 19:12:31 alecxe

这并不完全正确。 'event.xpath（“.// h4 [。='Time']/following-sibling :: div/p/text（）”）'会返回一个带有2个选择器的SelectorList，而不是一个。除非结合'.extract_first（）'（这可能是你的意思），否则你需要用'.h4 [ ='时间'] /下列兄弟:: div [1]/p/text（）' –

@paultrmbrth谢谢，好点。 – alecxe

Scrapy：穿越文档

回答

相关问题