我需要上传的数据是出现在一个网站链接说例如“博客” 到HDFS。加载数据到HDFS
现在,我一直在寻找通过完成这个选项可以找到以下链接:
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
而是通过水槽文档读书,我不是我怎么可以设置水槽源 明确指向博客内容所在的网站。
根据我对fluem doc的理解,需要有web服务器,我需要部署应用程序,那么将生成将通过flume转移到hdfs的weblogs。
但我不希望Web服务器日志,其实我在寻找博客内容(即所有的数据,如果任何在博客+评论),这是非结构化数据的话,我想处理进一步用java这个数据map-reduce。
但不知道我是否在正确的方向前进。
另外我经历了pentaho。但不清楚,如果使用PDI我可以从 网站获取数据并将其上传到hdfs。
以上任何信息都将非常有用。
在此先感谢。
谢谢praveen。我尝试使用博客API,但无法使用相同的,因为java特定的api没有完成后添加谷歌api罐子编译错误。它需要在blooger api文档中提到的google服务api jar,但是无法在线找到该jar。两种情况下都必须编写自定义api,否则我不确定在这种情况下我能做什么。 – user1278493 2013-04-12 07:47:31