2012-02-01 25 views
0

我想到编写一个可以使用XML并将其插入数据库的Java程序的可能性。我提取了压缩的维基百科页面文件,所以我现在使用xml,而不仅仅是xml.bz2。我看过维基百科的网站,但没有成功。找不到东西。我想这不应该是一个非常艰难的过程,它应该是直接的,这就是为什么我问你:)导入Wikipedia的xml.bz2选项

回答

1

.bz2后缀表示bzip2压缩。如果您使用的是Linux或其他Unixish操作系统,则可能已经安装了bzip2 decompresor;如果你在Windows上,你可以下载一个here

请注意,有些Java库可让您直接读取bzip2压缩流而无需外部解压缩程序。其中之一可以找到here

编辑:等等,我想我误解了你的问题。您似乎已经设法解压缩XML转储,现在您想知道如何处理它。在这种情况下,您可能需要查看mwdumper

+0

是的,我发现了mwdumper,它似乎工作:)谢谢 – Andrew 2012-02-01 18:55:09