2012-10-02 31 views
0

我想配置LucidWorks网络数据源来只索引某些文件类型。但是,当我设置包括路径.*\.html只能爬行.html文件(作为一个简化的例子),它只能索引顶级文件夹。 爬网深度设置为-1,当我离开包含路径为空时,它按预期爬网整个子树。配置LucidWorks包含路径来只抓取某些文件类型

我已经看了他们的文档creating a web data source,并为Using Regular Expressions,并不能找到一个原因.*\.html是行不通的,因为.*应该匹配任何字符。

回答

0

当我正在校对这个问题时,我有一个想法,那就是正确的解决方案。在这里为后代发布。


内容被抓取的文件共享,所以它依赖于Web服务器,将其过滤出来,因为它没有一个.html扩展名的目录列表。所以简单地将.*/加到包含路径就修复了这个问题。