0
我想开发一个搜索功能,我输入城市名称,它给了我的城市的天气条件。
我在我的系统上设置了Nutch-1.3和Solr-3.4.0。我爬行的网站是here,并将索引传递给Solr进行搜索。现在,我想要检索this link上显示的信息,查询德里。Nutch履带不索引HTML内容
我该如何做到这一点?它是否需要编写任何插件?
<doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc>
实际上,nutch取得了德里的页面链接,但在查询德里时,并没有显示任何结果。我使用“*:*”编辑了我的帖子,其中包含了solr返回的XML快照。 – Shaggy
更新了答案 – Jayendra
感谢您的回复。 url的字段类型仅为“url”,您的意思是“您可以使用文本分析将字段复制到其他字段”?我怎样才能做到这一点?只是为了快速检查,是否有可能获取德里页面上的详细信息(降雨量,温度等),因为该页面的来源有点奇怪? – Shaggy