从外部URL中提取文本

我正在使分享像Facebook一样的链接功能。目前我正在解析元标签来获取关键字，描述等，但如何解析这些类型的页面http://en.wikipedia.org/wiki/Wikipedia这个页面没有元描述，但脸书仍然提取以下描述： Wikipedia（/ˌwɪkɪpiːdi.ə/或/ˌwɪkipiːdi。 ə/ WIK-i-PEE-dee-ə）是一个免费的基于网络的协作式多语言百科全书项目，由非营利性维基媒体基金会支持。它的1700万篇文章（超过340万英文）由志愿者共同编写在从外部URL中提取文本

如何在页面上找不到元描述标记时提取这些描述。

来源

2010-11-26 Rocky Singh

貌似它们所产生的描述相同的方式Bing也可能是难以轻易重新创建：

Bing如何生成我的网站的描述？

您设计您的网页内容的方式对您的网页描述有最大影响。当MSNBot 抓取您的网站时，它会分析索引网页上的内容，并且会生成关键字以与每个网页的关联。 MSNBot提取与关键字最相关的网页内容，并构建出现在搜索结果中的网站描述。网页内容通常是包含关键字或描述标签中的信息的句子片段。标题和URL也将被提取，将出现在搜索结果中。

如果更改Web 页面的内容，你的网页的描述可能改变下一次兵指数更新。为了影响您的网站的描述，请确保您的网页有效地传递您要在搜索结果中输入的信息。网管中心建议以下策略时，你设计内容：
* Place descriptive content near the top of each Web page. 
* Make sure that each Web page has a clear topic and purpose. 
* Create unique <title> tag content for each page. 
* Add a Web site description <meta> tag to describe the purpose of 
您网站上的每一页。例如：

> <META NAME="Description" 
> CONTENT="Sample text - describe your

http://www.bing.com/toolbox/support/faqs.aspx

一种选择是打冰，并试图从中获取描述。

来源

2010-11-26 16:11:12 brendan

嗨bendan，你能指导我如何击中谷歌或bing？ – 2010-11-29 09:42:25

您可以使用Bing API进行探索：http://www.bing.com/developers/s/API%20Basics.pdf – brendan 2010-11-29 17:27:44

用于提取所有你需要得到什么下载此页和parse：

System.Net.WebClient client = new System.Net.WebClient(); 

String url = "http://en.wikipedia.org/wiki/Wikipedia"; 

String pageHTMLSource = client.DownloadString(url); 

//Parse pageHTMLSource

来源

2010-11-26 15:39:42 Edward83

我已经有了HTML源码，但是如何判断哪个标签的文本包含适合我的描述用途的数据。它至少要有几句话。 – 2010-11-26 15:52:22

如果你想创建一个程序，给你一个任意网站的很好的描述，你将不得不做一个完整的KI，甚至可能通过图灵测试。所以简短的回答：你不能。

如果您愿意支付人工智能为您写网页摘要，Google为“Microjobs”。您可以创建一个自动化的职位描述，如“写出关于网页XY的两个句子摘要”，并在其后面放置一些价值分值。

当然，你可以尝试找到第一段文字，并拿出第一个N个句子，但这将在很多网站上失败。

来源

2010-11-26 16:12:30 TToni

亚马逊面临类似的问题，并有一个相当新颖的solution。很显然，这不是完美的，但通过将它与Bing使用的想法结合起来，我敢打赌，你可以得到一些非常稳定和有趣的关键字标签自动生成与本质上更可疑的描述。
所以它会是这样的：从元
有趣的句子
说明根据冰\谷歌
STP作为标签，与鼠标悬停上下文。

我认为，在所有可能的情况下，这就像是一只苍蝇。
它会把你的问题过度到一个荒谬的程度。

来源

2010-11-30 04:06:14

从外部URL中提取文本

回答

相关问题