我有Solr 4.10.4,我想索引一个xml文件。 Somes xml标签包含html标签。带有html标记的Solr索引xml文件(带有DataImportHandler)
<?xml version='1.0' encoding='UTF-8' standalone='no' ?>
<root>
<info>
<text>
<p>text 1</p>
<p>text 2</p>
<p>text 3</p>
</text>
</info>
</root>
我用这个:
<charFilter class="solr.HTMLStripCharFilterFactory"/>
,但它不工作,我不知道什么是错。
M.
** solr.HTMLStripCharFilterFactory **将去除索引数据中的html标签而不是存储值。你还想要转换存储的值吗? –