加载数据到HDFS

我需要上传的数据是出现在一个网站链接说例如“博客” 到HDFS。加载数据到HDFS

现在，我一直在寻找通过完成这个选项可以找到以下链接：

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

而是通过水槽文档读书，我不是我怎么可以设置水槽源 明确指向博客内容所在的网站。

根据我对fluem doc的理解，需要有web服务器，我需要部署应用程序，那么将生成将通过flume转移到hdfs的weblogs。

但我不希望Web服务器日志，其实我在寻找博客内容（即所有的数据，如果任何在博客+评论），这是非结构化数据的话，我想处理进一步用java这个数据map-reduce。

但不知道我是否在正确的方向前进。

另外我经历了pentaho。但不清楚，如果使用PDI我可以从网站获取数据并将其上传到hdfs。

以上任何信息都将非常有用。

在此先感谢。

来源

2013-04-11 user1278493

Flume可以提取数据（例如Twitter），也可以将数据推送到Flume，如使用FlumeAppender的服务器日志的情况。

要获取博客数据到HDFS

一）博客应用程序应该将数据推到HDFS，在FlumeAppender的情况。必须对博客应用程序进行更改，在大多数情况下情况并非如此。

或

b）中水槽可使用适当的API，如推特的情况下，拉博客数据。 Blogger提供了一个API来提取可以在Flume源代码中使用的代码。 Cloudera blog有reference到Flume代码来从Twitter中提取数据。

来源

2013-04-11 08:06:02

谢谢praveen。我尝试使用博客API，但无法使用相同的，因为java特定的api没有完成后添加谷歌api罐子编译错误。它需要在blooger api文档中提到的google服务api jar，但是无法在线找到该jar。两种情况下都必须编写自定义api，否则我不确定在这种情况下我能做什么。 – user1278493 2013-04-12 07:47:31

加载数据到HDFS

回答

相关问题