我尝试提取工作从本网站提供的信息,这是我的代码验证scrapy项目代码
from scrapy.spider import Spider
from scrapy.selector import Selector
from tutorial.items import DmozItem
class DmozSpider(Spider):
name = "myspider"
allowed_domains =["tanitjobs.com/"]
start_urls =["http://tanitjobs.com/search-results-jobs/"]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@class="offre"]/div[@class="detail"]')
items = []
item = DmozItem()
for site in sites:
item['title'] = site.xpath('a/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div[@class="descriptionjob"]/text()').extract()
items.append(item)
return items
但结果是不正确的(空项列表):
{'desc': [],
'link': [u'lien'],
'title': []}
和许多块像这样...
蜘蛛运行正常我,期待'site.xpath( 'DIV [@类= “descriptionjob”] /文()')',我建议你使用'site.xpath(” .// div [@ class =“descriptionjob”]/text()')' –
在我的情况下,它返回相同的项目,向我发送验证PLZ的代码; [email protected] – Athari
我第一次错过了它(我只是在我的测试中打印项目)。问题是与物品实例化,这应该在循环中完成 –