我想在python中执行一些n-gram计数,我想我可以使用MySQL(MySQLdb模块)来组织我的文本数据。在MySQL中接近序列文本文件读取性能
我有一个相当大的表格,大约10mil记录,表示由唯一数字ID(自动增量)和语言字段(例如“en”,“de”,“es”等等索引的文档..)
select * from table
是太慢和内存破坏性。 我结束了一个与像查询拆分整个ID范围为更小的范围内(比如2000和记录各宽),并处理每那些规模较小的记录集之一:
select * from table where id >= 1 and id <= 1999
select * from table where id >= 2000 and id <= 2999
等等...
有什么办法可以更有效地利用MySQL来实现它,并且实现与连续阅读大型语料库文本文件类似的性能?
我不关心记录的排序,我只是希望能够处理所有与我的大表中的某种语言相关的文档。
谢谢,我会试试! – Alexandros 2010-12-10 15:06:15