2012-11-09 40 views
0

我现在是Solr和Nutch。我对solr/nutch schema.xml中的字段映射有疑问。我想solr/nutch从我的网站上取得一些关键词。我知道schema.xml有一个字段映射部分允许我这样做。我想知道的是如何将关键字字段放入​​HTML中?如果我只是兴田HTML隐藏字段:HTML的现场映射

<input type="hidden" name="keyword" .... /> 

或者我应该使用

<meta/> 

标签?

回答

1

有上extracting element from HTML by XPATH所做的工作,这样你就可以检查它。

然而,使用元标签可以是一个更好的选择,因为HTML页面通常是畸形的XPath表达式。您可以使用Nutch提供的Index Metatags来提取元标记并填充Solr中的字段。

+0

谢谢,“指数肉类”工程太棒了! – user1773304