2013-07-01 58 views
0

我正在研究分类算法。为了做到这一点,我需要一个包含来自wikimedia的大约10,000个静态HTML页面的数据集。类似 page-title-1.html .... page-title-10000.html如何从Wiki获取10.000静态html页面的数据集

我试过谷歌,我发现我的最佳解决方案是从http://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/下载它。

但是,我不知道如何使用它来获得我想要的。

有一些文件如下

html.lst 2008-Jun-19 17:25:05 692.2M application/octet-stream 
images.lst 2008-Jun-19 18:02:09 307.4M application/octet-stream 
skins.lst 2008-Jun-19 17:25:06 6.0K application/octet-stream 
wikipedia-en-html.tar.7z 2008-Jun-21 16:44:22 14.3G application/x-7z-compressed 

我想知道如何与* .LST文件做,什么是wikipedia-en-html.tar.7z

+0

下载7zip解压压缩文件。 http://www.7-zip.org/ – RichieHindle

+0

是的,感谢您的建议,我会尝试它,但维基百科-en-html.tar.7z约为14G,它需要一些时间来获取文件,我只是想确定我是否可以获取html文件或其他* .lst文件。我不知道如何处理* .lst文件。 – PhucNguyen

+0

'* .lst'文件包含文件列表,而不是实际的内容。我怀疑主存档包含HTML - 它更可能是维基标记。 – RichieHindle

回答