0
我想配置LucidWorks网络数据源来只索引某些文件类型。但是,当我设置包括路径到.*\.html
只能爬行.html文件(作为一个简化的例子),它只能索引顶级文件夹。 爬网深度设置为-1
,当我离开包含路径为空时,它按预期爬网整个子树。配置LucidWorks包含路径来只抓取某些文件类型
我已经看了他们的文档creating a web data source,并为Using Regular Expressions,并不能找到一个原因.*\.html
是行不通的,因为.*
应该匹配任何字符。