2014-04-12 64 views
1

在我们的一个应用程序中,我们主要使用我们想要搜索的html编码文本。在将文档添加到弹性搜索之前,我可以去掉html标签(我有一个包含html标签的完整文本字段,另一个没有,剥离版本)。如何在弹性搜索中处理HTML编码文本?

我想知道是否有一个标准的分析仪可让我没有剥夺HTML标记“自己”,事先...

希望有人能有所帮助......

回答

1

html_strip char filter应该有所帮助:

例如:

curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'" 
+0

这是否过滤器需要被激活或安装的左右?如果我运行上述,分析的文本是“a”“测试”“数据”“a”。 因此没有被剥离;只有“<" ">”和“/”字符被剥离... – cyclomarc

+0

@cyclomarc奇怪它适合我。 https://www.found.no/play/gist/d3eeb22e1f1b69012f7f#analysis。 html_strip char过滤器应该默认可用。 – keety

+0

Thx @keety。在我的情况下不起作用。我简单地使用帖子来“_analyze?char_filter ='html_strip'”与帖子正文:“这是一个DOCUMENT与HTML”。结果是“b”,“document”,“b”和“html”的标记。任何恶棍? – cyclomarc

相关问题