2013-07-14 44 views
6

我使用Python与nltk。我需要用英文处理一些没有任何空格的文本,但是nltk中的word_tokenize函数无法处理这样的问题。所以如何标记没有任何空格的文本。 Python中是否有任何工具?如何标记没有空格分隔符的连续单词?

+0

为什么没有空间?什么是域名? – Jared

+0

你如何识别一个单词? –

+0

除非您逐字扫描文本并测试所有可能的连续字符组合,否则必须有分隔符 – Yotam

回答

1

我不知道这些工具,但问题的解决方案取决于语言。

对于土耳其语言,您可以逐字逐行扫描输入文本,并将字母累加到单词中。如果您确定累积的单词是从字典中形成的有效单词,请将其另存为单独的令牌,然后擦除缓冲区以累积新单词并继续此过程。

你可以试试这个英文,但是我认为你可能会发现一个单词的结尾可能是某个词典单词的开头,这会导致你一些问题。

相关问题