如何从Wiki获取10.000静态html页面的数据集

我正在研究分类算法。为了做到这一点，我需要一个包含来自wikimedia的大约10,000个静态HTML页面的数据集。类似 page-title-1.html .... page-title-10000.html如何从Wiki获取10.000静态html页面的数据集

我试过谷歌，我发现我的最佳解决方案是从http://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/下载它。

但是，我不知道如何使用它来获得我想要的。

有一些文件如下

html.lst 2008-Jun-19 17:25:05 692.2M application/octet-stream 
images.lst 2008-Jun-19 18:02:09 307.4M application/octet-stream 
skins.lst 2008-Jun-19 17:25:06 6.0K application/octet-stream 
wikipedia-en-html.tar.7z 2008-Jun-21 16:44:22 14.3G application/x-7z-compressed

我想知道如何与* .LST文件做，什么是wikipedia-en-html.tar.7z

来源

2013-07-01 PhucNguyen

下载7zip解压压缩文件。 http://www.7-zip.org/ – RichieHindle

是的，感谢您的建议，我会尝试它，但维基百科-en-html.tar.7z约为14G，它需要一些时间来获取文件，我只是想确定我是否可以获取html文件或其他* .lst文件。我不知道如何处理* .lst文件。 – PhucNguyen

'* .lst'文件包含文件列表，而不是实际的内容。我怀疑主存档包含HTML - 它更可能是维基标记。 – RichieHindle

您可能需要阅读the section "Static HTML tree dumps for mirroring or CD distribution" of Database download on Wikipedia（实际上是整个页面，该页面指向7zip用于解压主档案）。

来源

2013-07-01 20:59:07 RichieHindle

如何从Wiki获取10.000静态html页面的数据集

回答

相关问题