我有以下任务要做:填写拼写检查字典(简单的txt文件)我需要解析器 哪些应该: - 解析文本文件(或其他类型的文档),提取 每个单词,然后创建简单的文本文件像这样的单词列表: adfadf adfasdfa adfasfdasdf adsfadf ... 等 什么脚本语言和库你有什么建议?如果可能,请举例说明代码(尤其是提取每个单词)。谢谢!如何制作文本文件(或其他文件)解析器?
回答
你想要的不是解析器,而只是一个标记器。这可以在与一群正则表达式的任何语言来完成,但是我不建议用Python NLTK:
>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']
一般来说,几乎所有的NLP工具包将包括一个标记,所以没有必要推倒重来;标记化并不困难,但它涉及编写大量启发式方法来处理所有例外,如缩写,首字母缩略词等。
谢谢!我会以这种方式发掘 – user939536
@ user939536:如果它解决了您的问题,请不要忘记单击此答案旁边的复选标记。 –
好吧,它真的帮助!我的aquaintants正在创建这个脚本,谢谢! – user939536
- 1. 如何解析器文件,其中包括其他文件?
- 2. Java - 解析文本文件 - 扫描仪,读取器或其他东西?
- 3. 如何从其他控制器文件
- 4. 解析巨大的文件外壳(或其他脚本语言)
- 5. 从文本文件解析json对象与其他东西 - Python
- 6. 解析定制的纯文本文件
- 7. Grails如何解析文本文件?
- 8. 如何从html文件解析文本
- 9. 如何用c#解析文本文件?
- 10. 拆分文件以解析文本。正则表达式或其他方法
- 11. 解析日志文件 - C#或其他任何
- 12. 如何签署文本文件或任何其他xml
- 13. Java解析器文件文本
- 14. VBA文本文件解析
- 15. 解析文本文件
- 16. 解析文本文件perl
- 17. Ruby - 解析文本文件
- 18. 解析文本文件
- 19. 解析php文本文件
- 20. 解析文本文件不
- 21. 从文本文件解析
- 22. 解析文本文件
- 23. 解析文本文件Java
- 24. 解析文本文件
- 25. Groovy解析文本文件
- 26. C#:解析文本文件
- 27. Perl解析文本文件
- 28. 解析文本文件行
- 29. C#解析文本文件
- 30. 解析文本文件
您应该搜索称为标记器的东西,它将您的字序列划分为可传递的标记到字典。在线有很多开源项目。在这里你可以在java中找到一种算法:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html – 2011-11-10 10:59:46