0
每当Solr的是通过以下命令索引到集合(与configSet sample_techproducts_configs
),并使用URL,:如何删除SOLR索引内容中的脚本和样式[内容字段],同时通过URL索引?
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
所创建的索引确实有复制到text
字段的字段content
。 该字段确实具有使用嵌入式tika解析解析的网页内容的价值。
但是,如果这些网页包含任何<script>
或<style>
标记,<body>
将被删除,但这些相应标记中的脚本或样式仍保留为网页内容,并显示为响应Solr查询。
如何删除这些不需要的内容?