1
在我们的一个应用程序中,我们主要使用我们想要搜索的html编码文本。在将文档添加到弹性搜索之前,我可以去掉html标签(我有一个包含html标签的完整文本字段,另一个没有,剥离版本)。如何在弹性搜索中处理HTML编码文本?
我想知道是否有一个标准的分析仪可让我没有剥夺HTML标记“自己”,事先...
希望有人能有所帮助......
在我们的一个应用程序中,我们主要使用我们想要搜索的html编码文本。在将文档添加到弹性搜索之前,我可以去掉html标签(我有一个包含html标签的完整文本字段,另一个没有,剥离版本)。如何在弹性搜索中处理HTML编码文本?
我想知道是否有一个标准的分析仪可让我没有剥夺HTML标记“自己”,事先...
希望有人能有所帮助......
该html_strip char filter应该有所帮助:
例如:
curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'"
这是否过滤器需要被激活或安装的左右?如果我运行上述,分析的文本是“a”“测试”“数据”“a”。 因此没有被剥离;只有“<" ">”和“/”字符被剥离... – cyclomarc
@cyclomarc奇怪它适合我。 https://www.found.no/play/gist/d3eeb22e1f1b69012f7f#analysis。 html_strip char过滤器应该默认可用。 – keety
Thx @keety。在我的情况下不起作用。我简单地使用帖子来“_analyze?char_filter ='html_strip'”与帖子正文:“这是一个DOCUMENT与HTML”。结果是“b”,“document”,“b”和“html”的标记。任何恶棍? – cyclomarc