蒂卡安装

我综合提卡使用Solr按照this link

蒂卡安装

提供的说明纠正我，如果我错了，在我看来，它可以索引的文档文件（PDF，DOC，音频）位于在我自己的系统上（给定存储这些文件的目录的路径），但是当我使用nutch抓取某些站点时，无法索引位于Internet上的这些文件。

我可以使用Tika索引位于网络上的文档文件（pdf，audio，doc，zip）吗？

来源

2012-08-01 srijla

基本上有两种方式来索引二进制文档内的Solr，既提卡：

在客户端使用提卡从二进制文件中提取信息，然后手动索引中的Solr
所提取的文本通过使用ExtractingRequestHandler，您可以将二进制文件上传到Solr服务器，以便Solr可以为您完成工作。这种方式在客户端并不是必需的。

在这两种情况下，您都需要在客户端使用二进制文档。抓取时，nutch应该能够下载二进制文件，使用Tika从它们中生成文本内容，然后像在通常情况下使用文本文档一样在Solr中索引数据。 Nutch已经使用Tika，我想这只是配置你想索引的文件类型，通过从下面的行中删除你想要索引的文件扩展名来改变regex-urlfilter.txt nutch配置文件。

# skip some suffixes 
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

这样你会使用我提到的第一个选项。然后，您需要在nutch-site.xml中启用nutch上的Tika插件，查看nutch邮件列表中的this discussion。

这应该在理论上工作，让我知道如果它不。

来源

2012-08-01 11:22:27 javanna

我只是通过删除你问我的行来定制regex-urlfilter.txt。接下来，我爬过一个链接，其中有一个图像。然后，我将抓取的数据发送到solr。这就是我得到的。 – srijla 2012-08-01 13:31:00

<浮子名称= “升压”> 1.0 8189c36cedb58440686777e7d300c181 HTTP：//lucene.apache .ORG /图像/ solr.png 20120801185310 <日期名称= “TSTAMP”> 2012-08-01T13：23：17.103Z HTTP ：//lucene.apache.org/images/solr.png – srijla 2012-08-01 13:32:03

但是当我通过solr前端，即Ajax-Solr搜索图像时，它显示未定义。有我犯的错误吗？ – srijla 2012-08-01 13:35:28

回答

相关问题