我在配置&测试指标配置Lucene搜索索引与lukeall工具,它搜索的定义模板,但网页上内容的所有字段不被索引组件使用未搜索的其它外部组件,但页面字段中的数据是可搜索的。 有什么方法可以像html搜索那样搜索它,这样就可以对页面上的所有数据进行索引。在Sitecore的Lucene搜索索引
谢谢你们。
我在配置&测试指标配置Lucene搜索索引与lukeall工具,它搜索的定义模板,但网页上内容的所有字段不被索引组件使用未搜索的其它外部组件,但页面字段中的数据是可搜索的。 有什么方法可以像html搜索那样搜索它,这样就可以对页面上的所有数据进行索引。在Sitecore的Lucene搜索索引
谢谢你们。
这是一个常见的要求。
该屏幕截图概述了爬网程序循环浏览页面的每个组件(大约38分钟)的方法。
http://www.techphoria414.com/Blog/2012/May/Sitecore_Page_Editor_Unleashed
上面的例子使用旧的高级数据库抓取,但原则是声音。
另一种常见的方法是在您的索引中创建一个计算字段,这会导致应用程序向页面发出请求,因此它可能会被刮掉。
https://github.com/hermanussen/sitecore-html-crawler
我的选择是第二种选择,因为它更准确的
或者,如果你希望你的爬网内容完全分开,你可以去https://github.com/efocus-nl/sitecorewebsearch
它还为您提供像一些额外的选项跳过部分页面(例如菜单,页脚,头文件)
感谢您的回复我们已经实现了计算字段,该字段对我们来说工作正常,并且在完成发布时重建索引吨。 这也是由sitecore向我们推荐的 –