-3
A
回答
0
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import Selector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from urlparse import urljoin
class CompItem(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
location = scrapy.Field()
class criticspider(CrawlSpider):
name = "craig"
allowed_domains = ["newyork.craigslist.org"]
start_urls = ["http://newyork.craigslist.org/search/cta"]
def parse(self, response):
sites = response.xpath('//div[@class="content"]')
items = []
for site in sites:
item = CompItem()
item['name'] = site.xpath('.//p[@class="row"]/span[@class="txt"]/span[@class="pl"]/a/text()').extract().
item['price'] = site.xpath('.//p[@class="row"]/span[@class="txt"]/span[@class="l2"]/span[@class="price"]/text()').extract()
item['location'] = site.xpath('.//p[@class="row"]/span[@class="txt"]/span[@class="l2"]/span[@class="pnr"]/small/text()').extract()
items.append(item)
return items
+0
感谢John的帮助。有效! – James
相关问题
- 1. 如何抓取网站?
- 2. nginx可抓取的网站facebook分享
- 3. 如何抓取SimpleHTMLDom返回的网站?
- 4. 如何抓取我自己的网站?
- 5. scrapy抓取网站
- 6. 如何解析/抓取/抓取特定信息的网站?
- 7. 安装抓取,网站抓取库
- 8. 网站抓取器每隔几秒就抓取一次网站
- 9. 我如何从Python网站抓取网站上的pdf链接
- 10. 我如何从R网站抓取这个网站的信息?
- 11. 如何抓取一个网站
- 12. 如何抓取网站证书?
- 13. 如何从网站上抓取数据
- 14. 如何从网站上抓取信息?
- 15. 如何抓取Hype Machine等网站?
- 16. 搜索引擎如何抓取网站?
- 17. 如何使用scrapy抓取网站?
- 18. 网站抓取问题网站
- 19. 如何抓取网站并截取每个网页的截图?
- 20. 软件抓取/抓取网站的网址
- 21. apache nutch不抓取网站
- 22. 抓取网站使用PHP
- 23. 网站抓取和截图
- 24. 抓取整个网站python
- 25. 网站内容抓取
- 26. 从网站抓取数据
- 27. 从网站抓取文本
- 28. 从网站抓取数据
- 29. Scrapy - 抓取和刮网站
- 30. 从网站抓取图片
到目前为止你做了什么? – Jithin
嗨,詹姆斯。我们试图鼓励新用户(以及所有人)展示他们的研究成果。我期望如果你在这里搜索,GitHub和网页通常你会发现CraigsList的某种形式。但是,请记住CraigsList公司可能对刮板的视角不清楚,因为运行一个是试图免费获取数据,以致其他人花费了大量时间和金钱进行组装。至少你需要在两次擦伤之间留下暂停,并且如果这是CraigLists的决定,那么接受IP封锁。 – halfer