0
这是网络爬虫的模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以使爬虫智能化,就像识别和捕获信息部分一样。如何从同一个网站的多个网页发现公共信息块?
这是网络爬虫的模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以使爬虫智能化,就像识别和捕获信息部分一样。如何从同一个网站的多个网页发现公共信息块?
它被称为包装归纳或网络数据提取研究问题。我不知道任何图书馆,但有很多研究论文(见恕我直言,以下列出的好的)和一些研究项目,如DIADEM(其网站也包含出版物列表)。