2017-06-16 21 views
1

我想根据documentation为空间中的标记化添加特殊情况。该文件显示特定的词语如何被视为特殊情况。我希望能够指定一个模式(例如后缀)。例如,我有这样的空间通过正则表达式或模式添加特殊情况标记化规则

text = "A sample string with <word-1> and <word-2>"

其中<word-i>指定单个字的字符串。

我知道我可以通过下面的代码一次为一个特殊情况。但是我怎么能指定一个模式呢?

import spacy 
from spacy.symbols import ORTH 
nlp = spacy.load('en', vectors=False,parser=False, entity=False) 
nlp.tokenizer.add_special_case(u'<WORD>', [{ORTH: u'<WORD>'}]) 

回答

3

您可以使用正则表达式匹配找到你的特殊情况串的边界,然后用spacy's merge method将它们合并为单一的令牌。 add_special_case仅适用于定义的单词。 这里是一个例子:

>>> import spacy 
>>> import re 
>>> nlp = spacy.load('en') 
>>> my_str = u'Tweet hashtags #MyHashOne #MyHashTwo' 
>>> parsed = nlp(my_str) 
>>> [(x.text,x.pos_) for x in parsed] 
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#', u'NOUN'), (u'MyHashOne', u'NOUN'), (u'#', u'NOUN'), (u'MyHashTwo', u'PROPN')] 
>>> indexes = [m.span() for m in re.finditer('#\w+',my_str,flags=re.IGNORECASE)] 
>>> indexes 
[(15, 25), (26, 36)] 
>>> for start,end in indexes: 
...  parsed.merge(start_idx=start,end_idx=end) 
... 
#MyHashOne 
#MyHashTwo 
>>> [(x.text,x.pos_) for x in parsed] 
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#MyHashOne', u'NOUN'), (u'#MyHashTwo', u'PROPN')] 
>>>