我正在寻找一种方法来配置Nutch抓取网络,但只索引某些类型的文件(XML是具体的)到Solr。我很确定一个自定义插件可以完成这项工作,可能是基于索引 - 更多的代码,但我宁愿不这样做,除非我必须这样做。我也确信我可以将所有东西都吸收到Solr中,然后用Solr的API删除不需要的内容,但这有点不方便。有没有办法将Nutch配置为只索引Solr中的某些文件类型?配置Nutch只索引索尔特定的文件类型
2
A
回答
0
在nutch中,您可以为url定义过滤器。那么用fileextension的名字过滤呢?
0
您可以根据扩展名过滤文件类型。
您可以指定要包含或排除的扩展名regex-urlfilter.txt
例如,排除( - ): -
#skip图像和其他后缀我们还不能解析29#的覆盖范围更加广泛使用urlfilter后缀插件 - (GIF | GIF | JPG | JPG |。 PNG | PNG | ICO | ICO | CSS | CSS |坐| SIT | EPS | EPS | WMF | WMF |拉链| ZIP | PPT | PPT |英里| MPG | XLS | XLS |广州|广州|转| RPM | TGZ | TGZ | mov | MOV | exe | EXE | jpeg | JPEG | bmp | BMP | js | JS)$
+您可以指定包含列表。
相关问题
- 1. Nutch 1.13索引链接配置
- 2. 只搜索特定的索引
- 3. Vim配置特定的文件类型
- 4. 如何使nutch索引仅包含特定文本的页面?
- 5. Apache Nutch不索引整个网站,只有子文件夹
- 6. apache nutch通过REST索引到索引
- 7. 使用NEST2为特定索引分配类型
- 8. 写入特定索引的文件
- 9. 如何让我只为相同的配置文件索引?
- 10. 谷歌索引只有特定的域
- 11. 索引索尔文件索引时出错
- 12. 从索尔索引删除文件 - 索引不触及
- 13. 如何解析html与nutch和索引特定的标签solr?
- 14. 由nutch更新solr索引
- 15. Solr使用Nutch Crawler索引
- 16. SolrIndexer索引器失败nutch
- 17. nutch - 如何抓取特定的文件类型?
- 18. 配置htaccess目录索引文件
- 19. 索引与索尔
- 20. 为Nutch编写插件(索引)
- 21. 索尔索引与搜索
- 22. php未定义的索引错误的配置文件
- 23. Mysql索引配置
- 24. 在.htaccess中设置特定文件夹的索引页面
- 25. 搜索引擎索引和类型
- 26. 如何使用雅虎搜索API搜索特定的文件类型?
- 27. Nutch,蜘蛛,索引网页它已经在它的索引?
- 28. 文本列的唯一索引 - 索引类型是什么?
- 29. 重新分配的类索引的阵列(引用类型)
- 30. 从泛型类型中检索特定的类类型?
我只想_index_ XML数据;我仍然想要抓取大部分内容。如果我使用regex-urlfilter排除了除XML以外的所有内容,Nutch将只抓取XML文档。 – Ian
所以你想改变索引器的行为而不是履带。 – orezvani