我一直在想出令牌处理器/令牌过滤器和分析器的正确组合,以利用elasticsearch来匹配URL。在elasticsearch中为URL字符串生成匹配
不幸的是,似乎我所采取的每种方法都未能找到一个或两个边缘案例。我希望有人在那里或许可以揭示一些轻如下:
如果我已经存储在elasticsearch以下值:
- http://www.example111.com
- http://www.example111.com/cats
- http://www.example111.com/cats?type=tabby
- http://www.example111.com/cats/dogs
- http://www.example111.com/dogs/cats
- http://www.example222.com/cats
- http://www.example222.com
- http://www.example222.com/cats/dogs
- http://www.example333.com/fish
我想知道我可以使用什么样的查询生成以下搜索字符串和结果集组合(依相关程度排序):
http://www.example111.com/cats/dogs
[4,2,3,1]
这里表达的总体思路是,结果按照与输入的相似程度排序,直到tld和scheme。当查询字符串不匹配或段不匹配时,结果将被丢弃。
根据该查询示例111/dogs应返回example111.com/dogs/cats,但查询example222.com/cats不应返回example222.com/cats/dogs。我认为http://www.example111.com/dogs [5,1]的例子似乎与其他的不一致。 – eemp
啊,是的,谢谢!修订。 –
只是想知道你是否看过这个? http://stackoverflow.com/questions/18977834/indexing-website-url-in-elastic-search这似乎很有用。 –