2015-10-15 70 views
1

我一直在试图抓住几周的所有传记wiki页面。问题是我找不到一种方法来区分关于某人或某人的页面。刮:检查一个页面是否是个人页面

例如以下网页:

看起来非常相同的关于他们的HTML代码。我确定必须有一个关键词,以便知道该页面是否与某人有关。

有没有人遇到同样的问题? 在此先感谢=)

回答

2

我不确定是否有明确的方法来告诉,但您可以建立一个指标列表,你认为该页面可能是关于一个人,然后在这些匹配。

例如在阿尔伯特爱因斯坦页面上,在右侧窗格中有“Born”和“Died”部分。通过提供这些内容,我们可以确信这篇文章是关于一个人(尽管如果你寻找死亡,你可能只会遇到死去的人)。然而,这些标题并不一致,您需要与其中的一个或多个相匹配,以增强对该文章确实是关于某人的信心。例如https://en.wikipedia.org/wiki/Lionel_Messi不包含“Born”标题,但它确实包含“出生日期”。

此外,你可以做一些自然语言分析,试图找出页面上的主要文本是否正在谈论一个人。很多提到“他”或“她”,可能意味着文章正在谈论一个人。

相关问题