配置LucidWorks包含路径来只抓取某些文件类型

我想配置LucidWorks网络数据源来只索引某些文件类型。但是，当我设置包括路径到.*\.html只能爬行.html文件（作为一个简化的例子），它只能索引顶级文件夹。 爬网深度设置为-1，当我离开包含路径为空时，它按预期爬网整个子树。配置LucidWorks包含路径来只抓取某些文件类型

我已经看了他们的文档creating a web data source，并为Using Regular Expressions，并不能找到一个原因.*\.html是行不通的，因为.*应该匹配任何字符。

来源

2012-10-02 Eugene Katz

当我正在校对这个问题时，我有一个想法，那就是正确的解决方案。在这里为后代发布。

内容被抓取的文件共享，所以它依赖于Web服务器，将其过滤出来，因为它没有一个.html扩展名的目录列表。所以简单地将.*/加到包含路径就修复了这个问题。

来源

2012-10-02 15:08:50

配置LucidWorks包含路径来只抓取某些文件类型

回答

相关问题