2011-08-25 71 views
4

许多页面(脸谱,谷歌+等)都有一个函数,可以创建一个包含标题,图像和链接文本的摘要。我试图找出是否有任何关于如何做这种功能的图书馆或指南,但我的搜索结果根本没有任何帮助。从链接创建摘要

我知道我可以解析页面的html并提取我想要的元素,但我认为应该有一些标准来说明如何做到这一点(也许还有如何创建对此友好的页面那种functionallity的。

任何人有一个很好的链接,将我指向正确的方向?Javascript或.NET是我首选的choise,但我也能实现它自己。

回答

1

对于“或许还怎么创建对此类功能都很友好的页面“部分:
您可能正在搜索open graph protocol

<html xmlns:og="http://ogp.me/ns#"> 
<head> 
<title>The Rock (1996)</title> 
<meta property="og:title" content="The Rock" /> 
<meta property="og:type" content="movie" /> 
<meta property="og:url" content="http://www.imdb.com/title/tt0117500/" /> 
<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" /> 
... 
</head> 
... 
</html> 

我认为这是facebook的第一个地方。但Facebook似乎有自己的算法来检测这些标签丢失时页面最相关的部分。

0

许多页面(脸谱,谷歌等)有一个功能,创建一个 总结与标题,图像和一些链接的文字。我试图 找出是否有任何图书馆或指导方针如何做到这一点 类型的功能,但我的搜索结果一点都没有帮助。

这样的函数通常使用某种“爬行”来构建,这意味着脚本打开链接并查看其数据。就像你建议你自己一样。

我知道,我可以分析一个网页的HTML和提取元素 我想,但我认为应该有中 如何做到这一点(也许还如何创建网页某种标准的那是友好的这种 样functionallity的。

标准的方法是这样的大多数搜索引擎做的,像谷歌,你从标题的网站,说明标题从描述,如果有任何。大多数搜索引擎现在几天忽略描述元数据,而是试图做出自己的总结。

这通常通过查找标题(h1,h2等)和段落来完成。

为了使这些爬行网站“友好”,您可以根据Web标准(W3C)建立您的网站。

任何有良好联系的人都会将我指向正确的 方向吗? Javascript或.Net是我的首选,但我也可以自己实现它。

语言真的没关系,只要它能够做一些基本的HTTP-GET。