2014-04-04 80 views
0

我正在使用solr搜索引擎来进行文档回复中的项目目的。我的数据集是.txt文件格式。但是solr只给出了json,xml,pdf和其他一些文件格式的选项。没有文本文件的选项。
对于使用.txt文件作为数据集,我需要对solr进行一些修改吗?我们可以搜索Solr搜索引擎中的.txt文件吗?

+0

数据如何存储在txt中?逗号分隔? – sidgate

回答

0

最有可能你将有空格分隔文件以.txt files.So索引文本文件,你可以写Python脚本流文档解决并执行提交。

0

除了txt文件,Solr还可以索引其他几种文档格式。详情请看Apache Tika

0

我发现了快速启动引导在一个非常有用的线https://lucene.apache.org/solr/5_3_1/quickstart.html

java -classpath /solr-5.0.0/dist/solr-core-5.0.0.jar -Dauto=yes 
-Dc=gettingstarted -Ddata=files -Drecursive=yes org.apache.solr.util.SimplePostTool docs/ 

对我来说特别有用的部分是-Dauto=yes。当此选项打开时,Solr的可以处理许多类型的文件(不要问我为什么)

Entering auto mode. File endings considered are xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 

我所知道的是,我打开该选项,而现在我的实例将接受PDF,XML和txt文件。

相关问题