我想复制Facebook用来解析链接的功能。当您将链接提交到您的Facebook状态时,系统会熄灭并从该页面检索建议的title
,summary
以及一个或多个相关的image
,您可以从中选择缩略图。使用Python检索类似Facebook的链接摘要(标题,摘要,相关图像)
我的应用程序需要使用Python完成此操作,但我愿意接受任何类型的指南,博客文章或其他开发人员的相关经验,并可能帮助我弄清楚如何实现它。 。
我真的想只是在跳之前,从别人的经验中学习
需要明确的是,给定一个网页的URL的时候,我希望能够检索:
- 标题:可能只是
<title>
标记,但可能是<h1>
,不确定。 - 该页面的一段摘要。
- 一堆可用作缩略图的相关图像。 (棘手的部分是过滤掉像横幅或圆角等不相关的图像)
我可能必须自己实现它,但我至少想知道其他人是如何执行这些类型的任务的。
BeautifulSoup不能很好地支持关于Python 3.1,它的原作者没有做太大的发展了。您最好使用lxml.html和/或html5lib(后者由BeautifulSoup作者推荐)。 – lunaryorn 2010-07-21 12:09:45
有用,以备将来参考。谢谢! – 2010-07-21 12:25:42