我使用Python与nltk。我需要用英文处理一些没有任何空格的文本,但是nltk中的word_tokenize函数无法处理这样的问题。所以如何标记没有任何空格的文本。 Python中是否有任何工具?如何标记没有空格分隔符的连续单词?
6
A
回答
1
我不知道这些工具,但问题的解决方案取决于语言。
对于土耳其语言,您可以逐字逐行扫描输入文本,并将字母累加到单词中。如果您确定累积的单词是从字典中形成的有效单词,请将其另存为单独的令牌,然后擦除缓冲区以累积新单词并继续此过程。
你可以试试这个英文,但是我认为你可能会发现一个单词的结尾可能是某个词典单词的开头,这会导致你一些问题。
1
也许Viterbi algorithm可以帮忙吗?没有确定性......但可能比手动完成更好。
这回答另一个问题,SO(以及其他高投票答案)可以帮助:https://stackoverflow.com/a/481773/583834
相关问题
- 1. 如何分割没有连续分隔符的空格的字符串
- 2. 用空格作为单词间的分隔符移动单词中的单词
- 3. 我如何标记非空格分隔的字符串?
- 4. Bash完成时没有任何空格分隔的词
- 5. 计数用空格和/或标点符号分隔字符串的单词数
- 6. 作为分隔符的空格连接
- 7. Javascript正则表达式匹配用空格分隔符分隔的单词
- 8. 如何排除连字符作为单词分隔符在bash
- 9. 如何在.htaccess中处理多个空格分隔的单词?
- 10. 如何在Vim中搜索由空格分隔的单词
- 11. 迭代在字符串中没有空格作为分隔符的分隔符
- 12. 如何定义aspell单词分隔符?
- 13. 如何设置单词分隔符?
- 14. Haskell:单词,单词分隔符
- 15. 如何删除字符串中未由空格分隔的前两个单词?
- 16. 如何隔离由Lua中的空格分隔的非英语单词?
- 17. 用空格(或任何字符)为任意数量的单词分隔文本单元格,并重复单词
- 18. Unix:分割管道分隔包含连续空格的字符串
- 19. 如何将包含单词和标点符号之间的空格的字符串分隔为句子?
- 20. 拆分由多个空格分隔的单词的行
- 21. 在Java中连接由空格分隔的单个字符?
- 22. 有一个词+空格作为分隔符
- 23. 如何匹配正则表达式中由空格分隔的所有单词?
- 24. 单个单元格中的多个单词,如何分隔而不用分隔
- 25. Python分割连续分隔符
- 26. Perl分割函数 - 连续分隔符
- 27. 将句子拆分成空格分隔的单词
- 28. 单独的空格分隔单词并删除重复的单词
- 29. 如何使用strtok将用户输入的单词分隔符分隔为空格
- 30. 带连续分隔符的strtok_s行为
为什么没有空间?什么是域名? – Jared
你如何识别一个单词? –
除非您逐字扫描文本并测试所有可能的连续字符组合,否则必须有分隔符 – Yotam