2017-02-16 23 views
0

我已成功地使用维基百科页面链接SQL转储获取特定修订时间的维基百科页面之间的超链接。两个Wikipedia页面之间的链接数量

然而,有些情况下存在这样的链接的多个实例,例如,非常相同的https://en.wikipedia.org/wiki/Wikipedia页面和https://en.wikipedia.org/wiki/Wikimedia_Foundation。我有兴趣查找特定修订版的页面对之间的链接数量。

理想的解决方案将涉及除pagelinks(我不知道)以外的转储文件,或使用MediaWiki API。

回答

1

我认为你最不好的选择是解析Parsoid输出;例如请转至https://en.wikipedia.org/api/rest_v1/page/html/Wikipedia并计算匹配选择器a[rel="mw:WikiLink"][href="./Wikimedia_Foundation"]的链接。

+0

我将不得不做任何两个维基百科文章之间的每个超链接的API调用和解析... – maruscia

+1

你必须,是的。您可以尝试在[研究列表]上询问(https://lists.wikimedia.org/pipermail/wiki-research-l/) - 也许有人已经做过并可以分享数据。 – Tgr

+0

谢谢,我遵循你的建议:) – maruscia