2014-11-23 32 views
-1

你好,我想问的东西......有没有一种方法来读取网站的一些信息,像我想读的每本书我不从背后阅读来自网站的代码背后的东西

代码自己在一些网站的页面...我可以做到这一点,怎么做?

不只是黑客读取明文没有HTML代码的方式想读

我不知道该怎么做还是怎么做,我需要一个想法

而且是有方法来搜索几个网站的特定词和API来使用它的搜索网站

回答

2

您仍然必须阅读HTML,因为这是标题传输的方式。

使用HttpWebRequest类向Web服务器发出请求,然后使用HttpWebResponse将响应和GetResponseStream()方法返回给响应。然后你需要以某种方式解析它。请参阅HTMLAgilityPack以解析HTML。您可以使用它来从HTML中获取标题元素并阅读它。然后,您可以获取页面中的所有锚点元素,并确定下一个要访问的站点上要扫描哪些标题。

1

有强大的HTML解析器,可对于.NET,您可以使用XPath用于读取HTML页面, HTML Agility pack

您可以使用内置的WebClient类来从页面获取数据作为字符串,然后执行字符串操作。