2012-08-01 47 views
1

我综合提卡使用Solr按照this link

蒂卡安装

提供的说明纠正我,如果我错了,在我看来,它可以索引的文档文件(PDF,DOC,音频)位于在我自己的系统上(给定存储这些文件的目录的路径),但是当我使用nutch抓取某些站点时,无法索引位于Internet上的这些文件。

我可以使用Tika索引位于网络上的文档文件(pdf,audio,doc,zip)吗?

回答

3

基本上有两种方式来索引二进制文档内的Solr,既提卡:

  1. 在客户端使用提卡从二进制文件中提取信息,然后手动索引中的Solr
  2. 所提取的文本通过使用ExtractingRequestHandler,您可以将二进制文件上传到Solr服务器,以便Solr可以为您完成工作。这种方式在客户端并不是必需的。

在这两种情况下,您都需要在客户端使用二进制文档。抓取时,nutch应该能够下载二进制文件,使用Tika从它们中生成文本内容,然后像在通常情况下使用文本文档一样在Solr中索引数据。 Nutch已经使用Tika,我想这只是配置你想索引的文件类型,通过从下面的行中删除你想要索引的文件扩展名来改变regex-urlfilter.txt nutch配置文件。

# skip some suffixes 
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$ 

这样你会使用我提到的第一个选项。然后,您需要在nutch-site.xml中启用nutch上的Tika插件,查看nutch邮件列表中的this discussion

这应该在理论上工作,让我知道如果它不。

+0

我只是通过删除你问我的行来定制regex-urlfilter.txt。接下来,我爬过一个链接,其中有一个图像。然后,我将抓取的数据发送到solr。这就是我得到的。 – srijla 2012-08-01 13:31:00

+0

<浮子名称= “升压”> 1.0 8189c36cedb58440686777e7d300c181 HTTP://lucene.apache .ORG /图像/ solr.png 20120801185310 <日期名称= “TSTAMP”> 2012-08-01T13:23:17.103Z HTTP ://lucene.apache.org/images/solr.png srijla 2012-08-01 13:32:03

+0

但是当我通过solr前端,即Ajax-Solr搜索图像时,它显示未定义。有我犯的错误吗? – srijla 2012-08-01 13:35:28