1
我想根据documentation为空间中的标记化添加特殊情况。该文件显示特定的词语如何被视为特殊情况。我希望能够指定一个模式(例如后缀)。例如,我有这样的空间通过正则表达式或模式添加特殊情况标记化规则
text = "A sample string with <word-1> and <word-2>"
其中<word-i>
指定单个字的字符串。
我知道我可以通过下面的代码一次为一个特殊情况。但是我怎么能指定一个模式呢?
import spacy
from spacy.symbols import ORTH
nlp = spacy.load('en', vectors=False,parser=False, entity=False)
nlp.tokenizer.add_special_case(u'<WORD>', [{ORTH: u'<WORD>'}])