我试图刮掉所有从本网站的职业生涯网页:http://wearemadeinny.com/find-a-job/是否可以使用XPath选择器(lxml)来刮取html数据属性?
我试过以下,但不幸的是,当你点击该公司网页的一个HREF中只出现:
from lxml import html
import requests
page = requests.get("http://wearemadeinny.com/find-a-job/")
tree = lxml.html.fromstring(page.text)
jobs = tree.xpath('//*[@id="venue-hiring"]/a/@href')
links = [x for x in jobs]
print links
我注意到每个<li>
都包含包含作业页面url的html数据属性。那么,是否有可能从每个<li>
中删除数据 - 雇用属性。如果不是使用lxml和XPath选择器是他们的其他选项?
这是我想要从中提取的<li>
元素之一。我会特别喜欢拉数据hiringurl =“http://www.admeld.com/about/jobs/”这个元素的xpath是// * [@ id =“v7”]
<li id="v7" data-vid="7" data-name="Admeld" data-address="230 Park Avenue South Suite 1201" data-lat="40.7378349" data-long="-73.9886703" data-url="http://www.admeld.com/" data-hiring="1" data-hiringurl="http://www.admeld.com/about/jobs/" data-whynyc="" data-category="1"><a href="#" class="list-digital">
<span class="venue-name">Admeld</span><br>
<span class="venue-address">230 Park Avenue South</span>
<br><span class="venue-hiring">We are hiring!</span>
</a>
</li>
你实际上在问,如何从特定的html文档中找到特定的url。如果您提供给定的文件或它的相关路径,这将有所帮助。无论如何,您的工作进展顺利 - lxml将允许您使用XPath,它将选择您需要的内容,或者允许迭代内容并逐个执行测试用例并提取您需要的内容。很可能,一个傀儡XPath表达式将解决您的任务。 –
@JanVlcinsky我编辑我的帖子上面。我知道如何使用xpath获取href,我只是不知道如何使用它来捕获html数据属性。 – metersk