我想标记一个句子列表,但保留否定的动词作为唯一的单词。Python:保留撇号与动词
t = """As aren't good. Bs are good"""
print(word_tokenize(t))
['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good']
我想“不是”和“是”分开。随着word_tokenize我得到“不”。同样的其他否定形式,如(不能,没有,等)。
我该怎么办? 在此先感谢
我想标记一个句子列表,但保留否定的动词作为唯一的单词。Python:保留撇号与动词
t = """As aren't good. Bs are good"""
print(word_tokenize(t))
['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good']
我想“不是”和“是”分开。随着word_tokenize我得到“不”。同样的其他否定形式,如(不能,没有,等)。
我该怎么办? 在此先感谢
如果要从空格分隔的句子中提取单个单词,请使用Python的split()
方法。
t = "As aren't good. Bs are good"
print (t.split())
['As', "aren't", 'good.', 'Bs', 'are', 'good']
您可以指定在split()
方法以外的分隔符为好。例如,如果你想记号化基于全停你的字符串,你可以做这样的事情:
print (t.split("."))
["As aren't good", ' Bs are good']
阅读文档here。
使用拆分re模块。 https://docs.python.org/2/library/re.html
import re
t = "As aren't good. Bs are good"
list(filter(None,re.split(r"[\s+.]",t)))
输出:
['As', "aren't", 'good', 'Bs', 'are', 'good']
谢谢您的答复。 – Elly