我想列出所有在维基百科上具有与其他人的链接的“人员”列表。如何使用SPARQL和dbpedia提取人维基百科页面上所有超链接人员的列表
例如,乔治·H·W·布什有这句话在他的个人简介:
"Bush was born in Milton, Massachusetts, to Senator
Prescott Bush and Dorothy Walker Bush."
现在多萝西布什超链接到自己的页面。我可以得到它看起来像一个列表:
George H. W. Bush | Dorothy Walker Bush
George H. W. Bush | Babe Ruth
George H. W. Bush | Bill Clinton
,并延长这个..就为大家维基百科?我显然必须将其分解为比特大小的块,以便输出,但我只是不确定如何对此进行编码以仅选择链接的人。谢谢
谢谢。是的,这是一个起点,但是没有办法在他们的个人档案中只提取链接的人员?我认为他们有这些链接是因为某些隐藏的属性,难以通过查询来选择? – Griff
@Griff答案提供了从DBpedia中提取“仅链接的人”的最简单方法。如果你需要更多的链接,你需要自己修改维基百科,或者添加更多的映射到DBpedia。在维基百科,一切都是文字;其中一些是链接文本,但只有在信息框和(其他)模板中,链接文本才能获得意义。这就是为什么DBpedia几乎完全从信息框中提取信息的原因,当它发生时,链接的含义被保存在一个属性中。这些可以使用SPARQL很容易地查询。希望这解释:) –
我将如何去手动维基百科页面内容之间的链接手动?对于给定的领域说数学?然后,您可以在距离您的起始节点特定深度截断搜索并建立一些互连。 – Griff