2017-06-16 73 views
0

有谁知道我该如何搜索斜体文本中的所有单词?为了扩大这个范围,寻找特定的(或不)斜体字?UIMA RUTA:斜体字

例如,假定“我一定那我没弄错”,我想提取certain,或提取未斜体所有am的?

+0

无论您输入文件是HTML或XML? –

+0

给我一个示例输入 –

+0

Hi @ Sugunalakshmi.G示例输入为html。 RUTA文档[链接](https://uima.apache.org/d/ruta-current/tools.ruta.book.pdf)提到了粗体和下划线,但不是斜体。 – Suds

回答

0

假设格式信息存在于CAS,例如,通过应用HtmlAnnotator(与HtmlConverter组合)由芸香提供,这些规则可能看起来像(如在问题的注释表示):

I{-> MyType}; 
SW.ct=="am"{-PARTOF(I) -> MyType}; 

您可能需要导入Ruta的HtmlTypeSystem。

免责声明:我是UIMA鲁塔开发商