2013-03-21 37 views
1

我想了解/优化索引网站的逻辑。我是新来的HTML/JS方面的东西,所以我一直在学习。在为网站建立索引时,我会根据每个网页上的链接递归地深入网站。一个问题是页面具有重复的URL和文本,如页眉和页脚。对于这些URL,我有一个我已经处理的URL列表。我能做些什么来识别每页上重复的文字?我希望我的解释清楚。我目前有代码(在Python中)获取该网站的有用URL列表。现在我正在尝试索引这些页面的内容。是否有首选逻辑来识别或跳过这些页面上的重复文本(如标题,页脚和其他信息)。我正在使用BeautifulSoup +请求模块。解析网页索引

+0

@johnthexiii - 有没有办法告诉什么是编辑一职? – R11 2013-03-21 16:33:56

+0

点击我名字上方的蓝色时间戳,我删除了签名(所以不喜欢那些),你拼错了一个单词。 – John 2013-03-21 16:40:32

+0

谢谢。不知道,所以不喜欢签名。 – R11 2013-03-21 16:42:52

回答

1

我不太确定这是否是您所希望的,但可读性是一种流行服务,它只是解析页面中“有用”的内容。这是为ios集成到safari中的服务。

它可以智能获取页面的内容有价值,而ignorning之类的东西页脚/头/广告/等

Python目前有/红宝石/ php和可能其他语言的开源端口。

https://github.com/buriy/python-readability

+0

有趣。这可能是我正在寻找的。我必须仔细阅读代码,因为我希望了解到底要做什么,以便更好地将其应用到我的代码中。谢谢你的帮助。 – R11 2013-03-21 16:32:29