5
A
回答
5
我已经使用Web Harvest
几次了,它非常适合网页抓取。
Web-Harvest是开源Web数据 用Java编写的抽取工具。它 提供了一种方法来收集所需的网页并从 中提取有用的数据。为了做到这一点,它利用已经建立的技术 和用于诸如XSLT,XQuery和 正则表达式的text/xml 操作的技术。 Web-Harvest 主要关注基于HTML/XML的web 网站,该网站仍然占据Web内容的绝大多数 。另一方面, 可以很容易地由 自定义Java库进行补充,以便 增强其提取功能。
另外,也可以使用工具,如JTidy
首先一个HTML文档转换为XHTML,然后再进行处理您需要XPath
信息推出自己的网页刷屏。例如,天真的XPath表达式可以从http://www.wired.com
中提取所有超链接,如//a[contains(@href,'wired')]/@href
。你可以在这个answer中找到一些类似问题的示例代码。
2
'简单'在这里可能不是一个相关的概念。这是一项复杂的任务。我建议nutch。
相关问题
- 1. 创建一个简单的'蜘蛛'
- 2. scrapy:蜘蛛中的小蜘蛛?
- 3. 有一个蜘蛛使用从另一个蜘蛛返回的物品?
- 4. Scrapy找不到蜘蛛
- 5. 蜘蛛网站的工具并寻找400或500错误?
- 6. 如何比较每个Scrapy蜘蛛项目与另一个Scrapy蜘蛛项目?
- 7. Scrapy从主蜘蛛运行多个蜘蛛?
- 8. Scrapy DOMAIN_NAME的蜘蛛
- 9. Python的scrapy蜘蛛
- 10. 道场蜘蛛图与一个系列
- 11. 块蜘蛛机器人除了一个
- 12. 如何在Python中编写简单的蜘蛛程序?
- 13. 简单的蜘蛛与BS4神秘地双打每页
- 14. 从手动jQuery代码创建蜘蛛最简单的方法?
- 15. Web蜘蛛与Wget的蜘蛛有什么不同?
- 16. 如何喂蜘蛛蜘蛛爬行内的链接?
- 17. 寻找一个简单而灵活的Java Swing LayoutManager
- 18. 寻找Java注释的简单配方
- 19. 寻找简单的3D Java库
- 20. 在蜘蛛情节
- 21. 制作蜘蛛restarable
- 22. asp.net(网络蜘蛛)
- 23. 布局像蜘蛛
- 24. Scrapy与Scrapy蜘蛛
- 25. 在使用scrapy制作的网络爬虫中调用另一个蜘蛛的一个蜘蛛
- 26. Scrapy错误:未找到蜘蛛
- 27. 错误:无法找到蜘蛛:教程
- 28. Scrapy找不到蜘蛛错误
- 29. 附表scrapyd蜘蛛和蜘蛛通过配置选项
- 30. 使用Scrapy创建蜘蛛,蜘蛛生成错误
感谢此资源。我能够成功地适应它。但是,如果网页响应结果为500,则在元素内容中找到输出“无效XML字符(Unicode:0x0)”的刮板失败(例如http://www.allure.com/magazine/flipbook)的文件。“有关此错误消息的任何想法? – rs79 2011-02-22 20:52:42