0
我想在页面响应传递给nutch之前从页面响应中移除特定元素。 具体来说,我想记住我的网页的部分用即Apache nutch:在解析之前操纵DOM
<div class="noindex">I shall not be indexed</div>
而想要Nutch的解析之前将其删除,使“我不会被索引”是不存在NutchDocument之后。我计划围绕我的导航,页眉和页脚内容,因为现在,它们出现在索引中的每个文档中。
感谢, 保罗