2011-12-21 54 views
1

我一直在阅读this但我只是想知道,Solr是否有能力搜索静态文件(即在内容管理系统或数据库之外)?可以Solr索引/搜索静态文件吗?

我的一些文件只是直线上升HTML ...或服务器端代码和HTML“块” ......

+0

您的意思是上传丰富的文本文件,如PDF,HTML,文档?这是http://wiki.apache.org/solr/ExtractingRequestHandler – aitchnyu 2011-12-21 14:08:48

+0

是的,有些是PDF文件...但我也有一些.cfm文件,其中包含HTML块... – redconservatory 2011-12-21 14:11:48

+0

Indexing ColdFusion标记?你有一点解释要做,先生! Solr将索引“他是一个以自我为中心的jack”“和”he = self :: center(++ jackass)“**完全相同的方式:从标点符号(标记化)中提取单词,删除停用词,然后查找每个词的词根(词干)并将其用于查询。你想要一个像Nullege这样的项目吗?或者管理代码回购? TortoiseHG,一个mercurial GUI对此很有帮助。 – aitchnyu 2011-12-21 16:40:20

回答

2

SOLR可以索引任何文字输入。重要的是,它索引文本。所以如果你的静态文件不是文本文件,你可能需要先通过一个工具如Tika运行它们。然后SolR应该没有问题索引提取的文本数据。