如何在弹性搜索中处理HTML编码文本？

在我们的一个应用程序中，我们主要使用我们想要搜索的html编码文本。在将文档添加到弹性搜索之前，我可以去掉html标签（我有一个包含html标签的完整文本字段，另一个没有，剥离版本）。如何在弹性搜索中处理HTML编码文本？

我想知道是否有一个标准的分析仪可让我没有剥夺HTML标记“自己”，事先...

希望有人能有所帮助......

2014-04-12 cyclomarc

例如：

curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'"

2014-04-12 18:45:20 keety

这是否过滤器需要被激活或安装的左右？如果我运行上述，分析的文本是“a”“测试”“数据”“a”。因此没有被剥离;只有“<" ">”和“/”字符被剥离... – cyclomarc

@cyclomarc奇怪它适合我。 https://www.found.no/play/gist/d3eeb22e1f1b69012f7f#analysis。 html_strip char过滤器应该默认可用。 – keety

Thx @keety。在我的情况下不起作用。我简单地使用帖子来“_analyze？char_filter ='html_strip'”与帖子正文：“这是一个DOCUMENT与HTML”。结果是“b”，“document”，“b”和“html”的标记。任何恶棍？ – cyclomarc

回答