我很快就要开始一个新项目,在那里我要做大量的文本处理任务,如搜索,分类/分类,聚类,等等。用于文本处理(文本挖掘,信息检索,自然语言处理)的Python或Java
将会有大量需要处理的文档;可能是数百万的文件。在初始处理之后,它也必须能够每天更新多个新文档。
我可以使用Python来做到这一点,或者Python太慢了吗?是否最好使用Java?
如果可能的话,我宁愿Python,因为这是我最近使用的。另外,我会更快地完成编码部分。但这一切都取决于Python的速度。我只用几千个文档就使用Python进行一些小规模的文本处理任务,但我不确定它是如何扩展的。
我从来没有使用的Jython。我读过它比Python慢。但是我想通过将代码的关键部分转换为java可能会比Python更快?那是对的吗? – kga 2011-05-17 12:57:52
@ user757256:是的,Jython是稍微慢一点,是更多的内存大户。破解一些原型,与CPython和Jython进行基准测试,然后查看您可以优化的内容。再次,只有在评估了可以使用的库之后,才能做出选择。 – 2011-05-17 13:28:20