2016-10-09 56 views
0

记号化的字符串我想要来标记一个字符串,并用下面的代码:如何在Python 3.5.2

print(raw) 
tokens = nltk.word_tokenize(raw) 
tokens 

“原始”是从HTML文件中提取文本。我打印了“原始”,但最后两行不起作用。我有nltk 3.2.1和Python 3.5.2。我记得nltk的创建者说nltk仍在升级Python 3中。

那么在Python 3.5.2环境中有没有其他方式来标记字符串? BeautifulSoup或其他软件包是否可以做到这一点?

+1

当你说最后两行“没有工作”,你能更具体吗?特别是,输入是什么,你期望的输出是什么,你实际得到了什么? –

+0

如果我的输入是字符串'第一章,在一个异常炎热的夜晚......',那么最后一行的输出应该是这样['Chapter','I','on','an' '异常',...]。但是现在什么都没有显示,只是看起来代码被跳过了。 – dwill

+0

@Jon Ericson我没有收到任何错误消息。 – dwill

回答

0

对于最后一行代码:令牌 我正在关注本书的一个示例。遵循朱利叶斯的建议,并将其简单地更改为

print(tokens) 

它工作。所以ntlk 3.2实际上适用于python 3.5。太棒了。

+1

请注意,这与nltk无关。你的问题是,在交互式提示符下编写变量名将会打印出来,但执行脚本时情况并非如此。 – alexis

+0

@alexis感谢您的澄清。我正在将它作为脚本运行。 – dwill

+0

是的,这很清楚。您复制的示例是用于交互式会话。 – alexis