我有一个DF: id text
1 This is a good sentence
2 This is a sentence with a number: 2015
3 This is a third sentence
我有一个文本清洗功能: def clean(text):
lettersOnly = re.sub('[^a-zA-Z]',' ', text)
我正在研究一个简单的基于语法的分析器。为此,我需要首先标记输入。在我的文章中出现了很多城市(例如纽约,旧金山等)。当我使用标准的nltk word_tokenizer时,所有这些城市都会被拆分。 from nltk import word_tokenize
word_tokenize('What are we going to do in San Francisco?')
电流输出: ['W