2014-03-19 245 views
0

我是新来的这种类型的问题,所以我有关于从网站抓取数据的问题。我需要从某个网站检索数据,因为我知道可以以csv或xls文件的形式检索数据。但是,我如何获得网址来下载它?从网站抓取数据

例如,我打开一些衣服店,看到所有的分类,是以某种方式接收文件(csv或其他)形式的数据?或者我需要解析某种方式的HTML?

回答

1

了解基本

第一:这一切都取决于网站(静态/动态)和需求(你想抓住进出你记录的数据类型)的类型。

第二,重要的一条:你需要学习如何让您的首选语言的Web请求。另外,如何序列化/反序列化各种文件格式的数据。

这里是一个不错的职位从X王上创建一个Java履带:

http://www.programcreek.com/2012/12/how-to-make-a-web-crawler-using-java/

它应该让你开始你的目的。

希望它有帮助!

+0

第二部分对我来说是可以理解的。我只是想知道如何获取网站的内容文件。我知道我应该创建请求来接收这个文件并解析它。但是请求是基于某个url创建的,应该用数据返回文件。那么如何知道应该处理哪个url? – Martin

+0

你说什么语言? –

+0

我正在谈论Java – Martin

0

对我来说,我建议你使用网络抓取工具,因为它更容易和更方便。如果您以前没有使用任何其他网络抓取工具,我会建议您直接使用网络抓取工具。它可以帮助你从网站提取数据到Excel或CSV格式,只要你想。如果您有兴趣,可以参阅本案例教程以了解更多信息。 Scrape Data from Airbnb into Excel