解析网页索引

我想了解/优化索引网站的逻辑。我是新来的HTML/JS方面的东西，所以我一直在学习。在为网站建立索引时，我会根据每个网页上的链接递归地深入网站。一个问题是页面具有重复的URL和文本，如页眉和页脚。对于这些URL，我有一个我已经处理的URL列表。我能做些什么来识别每页上重复的文字？我希望我的解释清楚。我目前有代码（在Python中）获取该网站的有用URL列表。现在我正在尝试索引这些页面的内容。是否有首选逻辑来识别或跳过这些页面上的重复文本（如标题，页脚和其他信息）。我正在使用BeautifulSoup +请求模块。解析网页索引

来源

2013-03-21 R11

@johnthexiii - 有没有办法告诉什么是编辑一职？ – R11 2013-03-21 16:33:56

点击我名字上方的蓝色时间戳，我删除了签名（所以不喜欢那些），你拼错了一个单词。 – John 2013-03-21 16:40:32

谢谢。不知道，所以不喜欢签名。 – R11 2013-03-21 16:42:52

我不太确定这是否是您所希望的，但可读性是一种流行服务，它只是解析页面中“有用”的内容。这是为ios集成到safari中的服务。

它可以智能获取页面的内容有价值，而ignorning之类的东西页脚/头/广告/等

Python目前有/红宝石/ php和可能其他语言的开源端口。

https://github.com/buriy/python-readability

来源

2013-03-21 16:16:00 dm03514

有趣。这可能是我正在寻找的。我必须仔细阅读代码，因为我希望了解到底要做什么，以便更好地将其应用到我的代码中。谢谢你的帮助。 – R11 2013-03-21 16:32:29

解析网页索引

回答

相关问题