记号化的字符串我想要来标记一个字符串,并用下面的代码:如何在Python 3.5.2
print(raw)
tokens = nltk.word_tokenize(raw)
tokens
“原始”是从HTML文件中提取文本。我打印了“原始”,但最后两行不起作用。我有nltk 3.2.1和Python 3.5.2。我记得nltk的创建者说nltk仍在升级Python 3中。
那么在Python 3.5.2环境中有没有其他方式来标记字符串? BeautifulSoup或其他软件包是否可以做到这一点?
当你说最后两行“没有工作”,你能更具体吗?特别是,输入是什么,你期望的输出是什么,你实际得到了什么? –
如果我的输入是字符串'第一章,在一个异常炎热的夜晚......',那么最后一行的输出应该是这样['Chapter','I','on','an' '异常',...]。但是现在什么都没有显示,只是看起来代码被跳过了。 – dwill
@Jon Ericson我没有收到任何错误消息。 – dwill