2012-05-23 109 views
2

我想写一个简单的Python应用程序来获取Wikipedia上的主题内容。例如,我试图获取水果apple上的页面内容。这是我的查询:维基百科API查询返回xml

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=apple 

这就是输出(格式化)看起来像:

http://pastebin.com/LNdDjXFj

但是,这并没有真正像XML。它看起来更像(我认为)PHP。我应该试着用Python解析还是有更好的方法?

回答

0

这不是PHP,它是媒体维基格式。

看格式化兆瓦页:http://www.mediawiki.org/wiki/API:Parsing_wikitext

个人而言,JSON格式的版本看起来更好,我(一旦它的解析)。

+0

是的,但即使使用action = parse也不会给出不同的结果。这是否意味着如果我只想从每个页面获取特定部分,我就必须编写一个解析器?我希望能够得到一段文字,但不包含所有维基百科特定位。 – s5s

+0

这就是数据存储的方式。那里有一个完整的解析器库。 http://www.mediawiki.org/wiki/Alternative_parsers – FlavorScape