如何从同一个网站的多个网页发现公共信息块？

这是网络爬虫的模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以使爬虫智能化，就像识别和捕获信息部分一样。如何从同一个网站的多个网页发现公共信息块？

2015-05-29 Fan Phill

它被称为包装归纳或网络数据提取研究问题。我不知道任何图书馆，但有很多研究论文（见恕我直言，以下列出的好的）和一些研究项目，如DIADEM（其网站也包含出版物列表）。

Muslea，Ion，Steven Minton和Craig A. Knoblock。 “Hierarchical Wrapper Induction for Semistructured Information Sources”。自治代理和多代理系统4，no。 1-2（2001）：93-114。
Dalvi，Nilesh，Ravi Kumar和Mohamed Soliman。 “Automatic Wrappers for Large Scale Web Extraction.”诉讼的VLDB捐赠4，没有。 4（2011）：219-230。
Dalvi，Nilesh，Ashwin Machanavajjhala和Bo Pang。 “在网络上分析结构化数据。”VLDB Endowment 5，no。 7（2012）：680-691。
Gentile，Anna Lisa，Ziqi Zhang，Isabelle Augenstein和Fabio Ciravegna。 “Unsupervised Wrapper Induction Using Linked Data。” 第七届国际知识会议论文集 Capture，41-48,2013.
Weninger，Tim，and Jiawei Han。在网络搜索和数据挖掘，779-780在第六届ACM国际会议论文集 2013年 http://dl.acm.org/citation.cfm?id=2433499：“半结构化的Web的提取和整合上探索结构和内容的网页。”

2015-05-29 10:42:53

回答