2011-12-20 57 views
0

我想在页面响应传递给nutch之前从页面响应中移除特定元素。 具体来说,我想记住我的网页的部分用即Apache nutch:在解析之前操纵DOM

<div class="noindex">I shall not be indexed</div> 

而想要Nutch的解析之前将其删除,使“我不会被索引”是不存在NutchDocument之后。我计划围绕我的导航,页眉和页脚内容,因为现在,它们出现在索引中的每个文档中。

感谢, 保罗

回答