0
我已经配置了带有提取器插件的Apache Nutch,Solr,用于过滤html内容。我怎么能够使用CSS引擎或xpath引擎访问内部div内容。 在此先感谢。如何通过提取器插件中的css引擎访问内部html内容以进行过滤
我已经配置了带有提取器插件的Apache Nutch,Solr,用于过滤html内容。我怎么能够使用CSS引擎或xpath引擎访问内部div内容。 在此先感谢。如何通过提取器插件中的css引擎访问内部html内容以进行过滤
只需使用“文本”功能即可。举例来说,如果你的HTML是这个样子:
<div class="target">
Hello <span>World!</span>
</div>
然后您摘录,以排除与此类似:
<extract-to field="my-field">
<text>
<expr value=".target"/>
</text>
</extract-to>
谢谢tahagh,让我试试,让你了解same.Thanks寻求帮助。 – 2015-01-17 06:03:49