2010-10-12 90 views
0

我想创建一个购物搜索引擎,显示产品从众多的网站,我不知道我怎么能检索从这些网站产品的信息。 我没有兴趣在搜索引擎中的一部分,但在提取网页中自动的方式使用自动生成的模板的产品信息。有谁知道这一些好的算法/报纸阅读..网页信息抽取

+0

你是什么意思“使用自动生成的模板”?像定义机器人应该如何刮取特定页面或网站的语言一样? – MStodd 2010-10-12 17:00:00

+0

也许我的表现不好。我想要一种算法或技术来检测网页背后的模板并根据该模板提取数据。 – user75569 2010-10-13 07:40:35

+0

你可能想看看什么样的信息提取(http://www.isweb.uni-koblenz.de/files/ssms09/SSMS_Slides/ciravegna-IE%20text.pdf是一个很好的开始)。你可以考虑你是如何“多”的网站试图指标,也许写一个专门的解析器每一个是不是一个巨大的工作量? – 2011-10-04 15:51:57

回答