2012-12-13 330 views
0

我正在寻找一种非常耗时的自动化任务的方法。我们有制造商名称和产品编号,我们在网上搜索,找到既有信息的网站,也有搜索制造商或供应商的网站,并使用链接上的信息来填充我们数据库中的相关字段。使用vb.net的网络爬虫/蜘蛛

手动搜索过程会消耗大量时间,我在寻找的是一个可以将名称和产品#作为输入发送到网络并搜索与输入相匹配的网站并转储这些链接的工具。

任何人都可以帮助我!

+0

只是制造商名称和产品标识的例子: “AJAX TOCCO MAGNETHERMIC”\t“6641-0158-001 RSB” – user1688170

回答

1

你试图达到的目标需要相当多的工作,恐怕你没有提供足够的信息让我深入细节。然而,在broadlines,一个简单的爬行算法需要以下步骤:

  • 为所需的URL创建HttpWebRequest一个实例。如果您需要执行POST请求,请使用GetRequestStream()方法来填充正文。
  • 请求GetResponse()请求获取服务器的响应。使用GetResponseStream()从响应中读取HTML标记;
  • 使用HtmlAgilityPack来遍历DOM节点并选择所需的数据。
  • 使用Fiddler查看大约发送的内容和您的应用程序发送的内容之间的区别。
  • 最后但并非最不重要的,你应该遇到自己解决不了或者不知道答案的一个问题 - 你已经知道如何使用StackOverflow :)
+0

感谢您的回应,但是我对.net是新手,如果您能为我提供一个使用示例,这将是一个很好的起点。 – user1688170

+0

如果你可以指导我如何在这里添加文件,以便我可以分享我正在寻找的示例 – user1688170

+0

@ user1688170,我不知道如何在StackOverflow上上传文件。我准备了一个演示爬虫作为您的项目的起点,但我不知道要在哪里上传文件......此外,该项目是在C#中。 – RePierre