2016-04-01 68 views
0

我想获取维基百科页面的内容,然后用它做一些有趣的事情。Wikipedia内容解析JSON

这个想法是,我想让他们在XML/JSON格式,目前我似乎没有找到办法做到这一点。

对于我成功地让这一步的时刻:

https://en.wikipedia.org/w/api.php?action=query&format=jsonfm&prop=revisions&titles=April_1&rvprop=content&rvcontentformat=text%2Fx-wiki

卜我收到XWiki实现的内容,我不能将其更改为JSON由于该网页不支持它。

如何解析XWiki到JSON或如何获取页面的内容。

谢谢!

+0

你会如何将XWiki格式转换为json?如果你真的可以用json来表示它,你如何期待输出结果? – f1sh

+0

因此,如果我们以4月1日的页面为例,我想将它看作一棵树,第一级的孩子是事件,出生,死亡,假期和纪念活动,外部链接,然后孩子们将与事件之后或只是年+事件。 –

+1

这不是维基百科的结构。每一页都只是文字。其中有一个结构是XWiki标记的结果。如果你想把它转换成结构化的JSON,你将不得不编写一个转换器。 – f1sh

回答

0

是的,您可以使用XWiki Rendering中的HTML解析器来解析由wikipedia生成的HTML。这给你一个AST,你可以根据自己的意愿做任何事情。

有关更多详细信息,请参见http://rendering.xwiki.org/xwiki/bin/view/Main/WebHome

你只需要找到一种方法来获取HTML中的维基百科内容。