2013-04-11 67 views
1

我需要上传的数据是出现在一个网站链接说例如“博客”HDFS加载数据到HDFS

现在,我一直在寻找通过完成这个选项可以找到以下链接:

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

而是通过水槽文档读书,我不是我怎么可以设置水槽源 明确指向博客内容所在的网站。

根据我对fluem doc的理解,需要有web服务器,我需要部署应用程序,那么将生成将通过flume转移到hdfs的weblogs。

但我不希望Web服务器日志,其实我在寻找博客内容(即所有的数据,如果任何在博客+评论),这是非结构化数据的话,我想处理进一步用java这个数据map-reduce。

但不知道我是否在正确的方向前进。

另外我经历了pentaho。但不清楚,如果使用PDI我可以从 网站获取数据并将其上传到hdfs。

以上任何信息都将非常有用。

在此先感谢。

回答

3

Flume可以提取数据(例如Twitter),也可以将数据推送到Flume,如使用FlumeAppender的服务器日志的情况。

要获取博客数据到HDFS

一)博客应用程序应该将数据推到HDFS,在FlumeAppender的情况。必须对博客应用程序进行更改,在大多数情况下情况并非如此。

b)中水槽可使用适当的API,如推特的情况下,拉博客数据。 Blogger提供了一个API来提取可以在Flume源代码中使用的代码。 Cloudera blogreference到Flume代码来从Twitter中提取数据。

+0

谢谢praveen。我尝试使用博客API,但无法使用相同的,因为java特定的api没有完成后添加谷歌api罐子编译错误。它需要在blooger api文档中提到的google服务api jar,但是无法在线找到该jar。两种情况下都必须编写自定义api,否则我不确定在这种情况下我能做什么。 – user1278493 2013-04-12 07:47:31