我试图从购物网站上刮取内容,然后将其保存在我的数据库表中的产品中。刮这些内容需要了解每个站点的DOM结构。不仅DOM结构,而且菜单中的类别层次结构。特定内容的网页搜索
有许多解决方案通过为每个站点设置配置,然后使用regx,XPath或css选择器查找包含(例如产品名称,价格,型号...)的特定html元素来实现此目的。
是否有解决方案来避免每个站点的设置配置和自动刮取产品属性?
有一个类似的解决方案,处理像Readability这样的新闻,它寻找<p>
标签和图像的序列。由于新闻网站和简单结构之间的相似性,对于新闻来说更容易,
你可以自动执行的过程:给定文本值,发现页面上的文本,然后按[生成的含元素的CSS选择器(HTTP: //stackoverflow.com/a/4588211/405017)。但是,不能保证生成的选择器是稳定的。你可以花费几天的时间收集多个页面的脚本,并使用启发式方法试图找到一种常见的模式......或者你可以用你的大脑根据明显的(对人类)模式生成一个好的选择器。 – Phrogz