1
这是我正在使用的文档的一部分的模型。我想要做的是先找到时间和成本要素,然后从中找到它们各自的价值。我试过各种轴选择器,但没有任何地方。我不直接去找时间和成本元素,我需要找到他们与他们相关的h4s。Scrapy:穿越文档
<ul class="events">
<li id="event-123456" class=eventItem>
<div class="details">
<h4>Time</h4>
<div>
<p>17:00</p>
</div>
<h4>Cost</h4>
<div>
<p>10.00</p>
</div>
</div>
</li>
<li id="event-678901" class=eventItem>
<div class="details">
<h4>Time</h4>
<div>
<p>21:00</p>
</div>
<h4>Cost</h4>
<div>
<p>20.00</p>
</div>
</div>
</li>
</ul>
这是解析器
def parse(self, response):
Events = response.xpath('//ul')
for event in Events:
item['cost'] = event.xpath(???)
item['time'] = event.xpath(???)
这并不完全正确。 'event.xpath(“.// h4 [。='Time']/following-sibling :: div/p/text()”)'会返回一个带有2个选择器的SelectorList,而不是一个。除非结合'.extract_first()'(这可能是你的意思),否则你需要用'.h4 [ ='时间'] /下列兄弟:: div [1]/p/text()' –
@paultrmbrth谢谢,好点。 – alecxe