Nutch履带不索引HTML内容

我想开发一个搜索功能，我输入城市名称，它给了我的城市的天气条件。
我在我的系统上设置了Nutch-1.3和Solr-3.4.0。我爬行的网站是here，并将索引传递给Solr进行搜索。现在，我想要检索this link上显示的信息，查询德里。Nutch履带不索引HTML内容

我该如何做到这一点？它是否需要编写任何插件？

<doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc>

来源

2011-11-18 Shaggy

Nutch基本上爬过页面上的链接。
但是，India page上没有链接，因此无法访问您提到的Delhi page。
所以它无法将其导航到该页面。

您可以创建您自己的虚拟html页面，充当索引的起始网址，并拥有您希望Nutch索引的所有链接。

什么是你架构中的默认搜索字段？
通常它的文本字段和查询德里将查找该字段的匹配。
由于*:*返回德里结果，而德里没有。它不匹配它正在搜索的字段上的索引标记。

什么是模式中为url定义的字段类型？
您可以通过文本分析将字段复制到其他字段，这会生成德里标记并查询url_copy:delhi应该返回结果。

来源

2011-11-18 18:41:22 Jayendra

实际上，nutch取得了德里的页面链接，但在查询德里时，并没有显示任何结果。我使用“*：*”编辑了我的帖子，其中包含了solr返回的XML快照。 – Shaggy

更新了答案 – Jayendra

感谢您的回复。 url的字段类型仅为“url”，您的意思是“您可以使用文本分析将字段复制到其他字段”？我怎样才能做到这一点？只是为了快速检查，是否有可能获取德里页面上的详细信息（降雨量，温度等），因为该页面的来源有点奇怪？ – Shaggy

Nutch履带不索引HTML内容

回答

相关问题