2010-08-19 40 views
0

借此例如: http://en.wikipedia.org/wiki/United_States_Bill_of_Rights如何从维基百科获取特定文本?

的“修订”部分下,我想每一颗子弹点说的话,并在Android应用程序在一个不错的列表中显示出来。我知道有一个wikimedia api,但我完全不知道如何使用它,从我所了解的情况来看,您可以在一节中找到文本,但我不确定是否可以分别获取每个要点。

这样做的最好方法是什么?或者取而代之,我是否应该花时间将超过300页的文本复制到文本文件中,并在应用程序中读取它?

+0

只需复制子弹点似乎是一个有效的策略。但你说的这300页在哪里?你只有一个链接。你指的是翻译的页面? – Mizipzor 2010-08-19 13:59:15

回答

2

此链接使用MediaWiki的API从你的问题查询页面(based on this wiki article):

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=United_States_Bill_of_Rights 

如您所见,它返回一个xml文档,该页面文本位于<rev>标签下。它是mediawiki文本标记语言中的普通编辑器文本。

所以要从这个文本中提取信息,你应该使用一个解析。有些是用Java编写的。

+0

谢谢!我测试过,它完美地工作 – magicman 2010-08-19 14:28:23

1

我相信你应该已经想到了这一点:

  • 如果你的目标是在您的应用程序来查看Wiki中,可以使用的WebView
  • 如果你的目标是捕获特定数据元素,你可以下载HTML页面和字符串处理它(DIV >> OL/UL >>李)