我有这有这样的结构的一些XML文档:忽略CTS元素:搜索
<root>
<intro>...</intro>
...
<body>
<p>..................
some text CO<sub>2</sub>
.................. </p>
</body>
</root>
现在我想搜索所有与短语CO2的结果,也希望得到上述类型的结果搜索结果。 为此,我使用这个查询 -
cts:search
(fn:collection ("urn:iddn:collections:searchable"),
cts:element-query
(
fn:QName("http://iddn.icis.com/ns/fields","body"),
cts:word-query
(
"CO2",
("case-insensitive","diacritic-sensitive","punctuation-insensitive",
"whitespace-sensitive","unstemmed","unwildcarded","lang=en"),
1
)
)
,
("unfiltered", "score-logtfidf"),
0.0)
但是使用这个我不能用CO<sub>2</sub>
拿到文件。我只用简单的短语CO2
获取数据。
如果我更换搜索短语CO 2
话,我能得到的文档只CO<sub>2</sub>
,而不是与CO2
我想要得到的结合为同一个CO<sub>2</sub>
和CO2
作为搜索结果的数据。
那么我可以通过任何方式忽略<sub>
,或者有什么其他方法来解决这个问题吗?
我觉得有趣的是ML在上标记了一个短语(对我来说)建议忽略标记。 –
索引在树模型上运行,而不是在标记的字符表示上。所以有一个内在的突破,因为有一个完全不同的文本节点。我认为有些案例(比如这样)需要一个“单词通过”来将令牌拼接在一起,但这并不总是正确的做法。 – mholstege
HI Mary - 完美 - 所以短语贯穿元素中的项目仍然是单独的节点。说得通。谢谢! –