我使用Nutch抓取网站,并且已将抓取的数据推送到solr。现在我想要搜索具有特定属性值的特定标签之间的内容。例如,使用Solr为具有属性的HTML标记编制索引
<h><title> title to search </title></h>
<div id="abc">
content to search
</div>
<div class="efg">
other content to search
</div>
我已经看到此问题(how to parse html with nutch and index specific tag to solr?),但这并没有足够的清晰度。
我想知道是否有任何插件可用,或者我需要完全编写一个定制的插件。如果我必须编写一个插件,我只需要几个方向来处理HTML标签和属性。
感谢您的回复!是否可以根据HTML标签的属性值(即id或class等)进行索引。在上面的例子中,abc代表id和efg代表class。 – abhijeet
我不这么认为。你将不得不自己提取这些值并为它们编制索引,也许在其他一些领域。 “HTMLStripCharFilterFactory”在这方面并没有帮助。 – JHS
好的。假设我知道诸如标题,描述,细节等属性的值。除了HTMLStripCharFilterFactory分析器之外,我还可以在schema.xml中为solr添加这些属性值吗? – abhijeet