我知道这个问题可能比它看起来更简单,但在阅读大量材料后,我感到非常困惑。因此,我已经下载了一个维基百科转储(这一个是精确的:enwiktionary-20151002-pages-articles-multistream.xml.bz2 - 这应该包含所有英文维基词典的文章)。我想要的是通过标题获取特定文章的内容(与在维基百科中搜索它的方式相同)。从维基百科获取文章XML转储 - 通过标题
注:我不想要HTML(由维基百科产生)。我想要“真实”的内容,就像你在维基百科中“编辑”任何文章时看到的一样。
几句话:
- 搜索的标题,例如文章“书”
- 获取内容
我应该如何着手呢?
P.S.我不是在寻找一种语言特定的解决方案。我只需要一些关于如何处理这个问题的想法。
不熟悉维基百科转储语法,你可以发布一个样本或链接到文档 – Steve
随着差不多12k代表你应该知道这些问题属于**“主要基于意见的”**类别 –
我会开始通过解压'bz2'文件,因为似乎没有办法以压缩格式处理它 – RiggsFolly