2010-04-21 51 views
18

我正在为我的大学项目下载完整的维基百科文本。我是否必须编写自己的蜘蛛来下载这个文件,或者网上有维基百科的公开数据集吗?维基百科文本下载

为了给大家介绍一下我的项目,我想了解一些我感兴趣的文章的有趣词汇。但是为了找到这些有趣的词,我打算使用tf/idf来计算词频每个单词并挑选出高频率的单词。但要计算tf,我需要知道整个维基百科的总发生率。

这怎么办?

+0

虽然我已经回答了你的问题,简单地指出,谷歌有你的答案是不可取的,如果你使用'下载完整的维基百科文字'的链接是第一次打。我这样说,希望它能帮助你改进你的google-fu。 – 2010-04-21 14:04:57

+0

@Sams Holder只想确认。这是下载所有页面的正确链接-http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean 2010-04-21 14:27:22

+0

是的,这似乎是所有当前网页,可能是什么你想,虽然不知道确切难以说肯定 – 2010-04-21 16:50:17

回答

20

从维基百科:http://en.wikipedia.org/wiki/Wikipedia_database

维基百科提供了所有可用的内容感兴趣的用户的免费副本。这些数据库可用于镜像,个人使用,非正式备份,脱机使用或数据库查询(如维基百科:维护)。所有文本内容均在Creative Commons Attribution-ShareAlike 3.0许可证(CC-BY-SA)和GNU自由文档许可证(GFDL)下进行多重许可。图片和其他文件可以按照不同的条款提供,详情请参阅其说明页面。有关遵守这些许可证的建议,请参阅维基百科:版权。

看起来你也很幸运。从转储部分:

截至2010年3月12日,英文版的维基百科可以在http://download.wikimedia.org/enwiki/20100130/发现这是自2008年以来 已经创建了英语维基百科的第一个完整的转储的最新完整转储请注意,最近的转储(例如20100312转储)不完整。

所以数据只有9天:)

+4

我upvoted你的答案,其他人只是因为你做了更多,然后只是发布一个链接。 – UnkwnTech 2010-04-21 14:00:25

+0

我也剪了:) – 2010-04-21 14:02:41

+0

只是想确认。这是下载所有页面的正确链接-http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean 2010-04-21 14:28:52

3

考虑到转储的大小,你可能会得到更好的使用英语的词频服务,或者使用MediaWiki API随机轮询页面(或咨询最多的页面)。有框架可以基于这个API(Ruby,C#,...)来构建机器人,它可以帮助你。

9

如果你需要一个纯文本格式,而不是一个Mediawiki的XML,那么你可以在这里下载: http://kopiwiki.dsd.sztaki.hu/

+0

太棒了!非常好的工作。请添加更多语言:-) – 2015-04-04 20:43:58

+3

链接已损坏。 – tmnol 2016-04-06 13:28:44

+0

新链接:https://dsd.sztaki。胡/产品/ kopiwiki。 – thuzhf 2016-06-16 15:09:34