我想了解/优化索引网站的逻辑。我是新来的HTML/JS方面的东西,所以我一直在学习。在为网站建立索引时,我会根据每个网页上的链接递归地深入网站。一个问题是页面具有重复的URL和文本,如页眉和页脚。对于这些URL,我有一个我已经处理的URL列表。我能做些什么来识别每页上重复的文字?我希望我的解释清楚。我目前有代码(在Python中)获取该网站的有用URL列表。现在我正在尝试索引这些页面的内容。是否有首选逻辑来识别或跳过这些页面上的重复文本(如标题,页脚和其他信息)。我正在使用BeautifulSoup +请求模块。解析网页索引
Q
解析网页索引
1
A
回答
1
我不太确定这是否是您所希望的,但可读性是一种流行服务,它只是解析页面中“有用”的内容。这是为ios集成到safari中的服务。
它可以智能获取页面的内容有价值,而ignorning之类的东西页脚/头/广告/等
Python目前有/红宝石/ php和可能其他语言的开源端口。
+0
有趣。这可能是我正在寻找的。我必须仔细阅读代码,因为我希望了解到底要做什么,以便更好地将其应用到我的代码中。谢谢你的帮助。 – R11 2013-03-21 16:32:29
相关问题
- 1. 解析网页
- 2. PrintDocument:解析索引
- 3. GSON解析索引的JSON
- 4. 阻止搜索引擎索引网页
- 5. 从网页解析HTML
- 6. Google如何解析网页?
- 7. 从网页解析XML
- 8. 使用BeautifulSoup4解析网页
- 9. 解析网页中的sre.findall()
- 10. BeautifulSoup无法解析网页?
- 11. 使用php解析网页
- 12. Jsoup解析一个网页
- 13. 关于网页解析
- 14. 解析HTML(网页)JavaSE
- 15. 解析一个网页
- 16. HTML解析器网页
- 17. 如何解析网页
- 18. 解析JSON供稿网页
- 19. 从php解析网页
- 20. 解析网页使用PowerShell
- 21. 网页解析无硒
- 22. 谷歌网页索引
- 23. 网页解析器网址re.findall()
- 24. 使用.lower解析网站时,列表索引超出范围()
- 25. 的网页,索引页稍微改变
- 26. JavaScript引擎解析并运行Javascript网页(perl/python)
- 27. 使用python和beautifulsoup搜索解析的网页时出错
- 28. 解析Ruby中的网页以从中检索URL
- 29. 为elasticsearch索引解析文本并获取索引值
- 30. 如何解析NSString从索引到索引?
@johnthexiii - 有没有办法告诉什么是编辑一职? – R11 2013-03-21 16:33:56
点击我名字上方的蓝色时间戳,我删除了签名(所以不喜欢那些),你拼错了一个单词。 – John 2013-03-21 16:40:32
谢谢。不知道,所以不喜欢签名。 – R11 2013-03-21 16:42:52