嘿所以我开始研究Solr并就Solr的工作方式提出了一些问题。我知道模式定义了Solr应用程序中存储和索引的内容。但是我对Solr如何知道“内容”是网站的内容还是URL是网址感到困惑?Solr的模式以及它是如何工作的
我的主要目标是我试图从网站上提取的电话号码,我想Solr中很好地吐出1234567890
嘿所以我开始研究Solr并就Solr的工作方式提出了一些问题。我知道模式定义了Solr应用程序中存储和索引的内容。但是我对Solr如何知道“内容”是网站的内容还是URL是网址感到困惑?Solr的模式以及它是如何工作的
我的主要目标是我试图从网站上提取的电话号码,我想Solr中很好地吐出1234567890
您需要Solr的schema.xml中通过声明的所有字段及其字段定义它类型。然后您可以查询Solr以搜索任何字段。从网站http://wiki.apache.org/solr/SchemaXml
的Solr不会自动索引内容:
请参阅此。你需要告诉它如何索引你的内容。 Solr只知道你告诉它知道的内容。提取电话号码听起来非常简单,因此编写更新脚本或在线查找应该不是问题。祝你好运!
当你说“网站”和“网址”你想做什么? – Ansari
@Ansari当我提到网站我的意思是整个网站,当我说网址我的意思是只有链接。对困惑感到抱歉。我想要做的是有nutch抓取网站,然后推它solr,以便它可以索引url到电话号码。 – Oak