2017-04-07 101 views
0

每当Solr的是通过以下命令索引到集合(与configSet sample_techproducts_configs),并使用URL,:如何删除SOLR索引内容中的脚本和样式[内容字段],同时通过URL索引?

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

所创建的索引确实有复制到text字段的字段content。 该字段确实具有使用嵌入式tika解析解析的网页内容的价值。

但是,如果这些网页包含任何<script><style>标记,<body>将被删除,但这些相应标记中的脚本或样式仍保留为网页内容,并显示为响应Solr查询。

如何删除这些不需要的内容?

回答

0

SimplePostTool阅读DATA_MODE_WEBinputstream(只对他们来说,内容类型为“text/html的”,并删除所有<script><style>标签,其内容,并再次转换是content_String在readPageFromUrl(URL u)功能使用stringToStream(String)到流。

相关问题