2011-11-18 148 views
0

我想开发一个搜索功能,我输入城市名称,它给了我的城市的天气条件。
我在我的系统上设置了Nutch-1.3和Solr-3.4.0。我爬行的网站是here,并将索引传递给Solr进行搜索。现在,我想要检索this link上显示的信息,查询德里。Nutch履带不索引HTML内容

我该如何做到这一点?它是否需要编写任何插件?

<doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc> 

回答

1

Nutch基本上爬过页面上的链接。
但是,India page上没有链接,因此无法访问您提到的Delhi page
所以它无法将其导航到该页面。

您可以创建您自己的虚拟html页面,充当索引的起始网址,并拥有您希望Nutch索引的所有链接。

什么是你架构中的默认搜索字段?
通常它的文本字段和查询德里将查找该字段的匹配。
由于*:*返回德里结果,而德里没有。它不匹配它正在搜索的字段上的索引标记。

什么是模式中为url定义的字段类型?
您可以通过文本分析将字段复制到其他字段,这会生成德里标记并查询url_copy:delhi应该返回结果。

+0

实际上,nutch取得了德里的页面链接,但在查询德里时,并没有显示任何结果。我使用“*:*”编辑了我的帖子,其中包含了solr返回的XML快照。 – Shaggy

+0

更新了答案 – Jayendra

+0

感谢您的回复。 url的字段类型仅为“url”,您的意思是“您可以使用文本分析将字段复制到其他字段”?我怎样才能做到这一点?只是为了快速检查,是否有可能获取德里页面上的详细信息(降雨量,温度等),因为该页面的来源有点奇怪? – Shaggy