1
我正在研究一个简单的基于语法的分析器。为此,我需要首先标记输入。在我的文章中出现了很多城市(例如纽约,旧金山等)。当我使用标准的nltk word_tokenizer时,所有这些城市都会被拆分。NLTK标记化但不分割命名实体
from nltk import word_tokenize
word_tokenize('What are we going to do in San Francisco?')
电流输出:
['What', 'are', 'we', 'going', 'to', 'do', 'in', 'San', 'Francisco', '?']
所需的输出:
['What', 'are', 'we', 'going', 'to', 'do', 'in', 'San Francisco', '?']
我怎样才能令牌化这样的句子,不要拆开命名实体?