2014-01-26 46 views
0

我使用的是Ubuntu 13.04。 我下载了英文维基百科转储。 .xml.bz2文件大约9Gb。在我使用命令行工具提取它之后,我得到一个大小为44Gb的.xml文件。我无法找到合适的方法来读取xml文件的内容。任何关于如何去做同样的建议。我试过this。我已经使用文章中所述的方法安装了wikidump。文章提到了我找不到的wikidump.cfg文件。另外如何在定位文件后继续进行。 我对Linux的工作环境比较陌生。任何帮助赞赏。解析维基百科转储(.xml文件)

+0

目标是什么,你为什么下载完整的转储? – frlan

回答

0

很少有系统可以读取一个大文件大小的文件。您需要一台至少具有44GB内存的VERY POWERFUL机器。你应该尝试将文件分割成更小的块,然后你就可以读取它。

split -b 1440k my_big_file 

你是怎么做到的。