2
我想写一个简单的Python应用程序来获取Wikipedia上的主题内容。例如,我试图获取水果apple上的页面内容。这是我的查询:维基百科API查询返回xml
http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=apple
这就是输出(格式化)看起来像:
但是,这并没有真正像XML。它看起来更像(我认为)PHP。我应该试着用Python解析还是有更好的方法?
是的,但即使使用action = parse也不会给出不同的结果。这是否意味着如果我只想从每个页面获取特定部分,我就必须编写一个解析器?我希望能够得到一段文字,但不包含所有维基百科特定位。 – s5s
这就是数据存储的方式。那里有一个完整的解析器库。 http://www.mediawiki.org/wiki/Alternative_parsers – FlavorScape