2013-04-10 34 views
0

在我的HDFS中,我将进行xml处理。即处理一个XML文件并提取2个节点。并且这将是我的x和y来绘制一个图。可视化来自hadoop的xml数据

我怎样才能做到从HDFS这.Generating图output.I要使用快速miner.how我可以这样做的任何想法...

否则后果自负

有没有办法想象我hadoop数据

+0

xml文件保存在hdfs中? – FUD 2013-04-10 03:47:36

+0

是的。他们保存在hdfs – 2013-04-10 04:11:34

回答

1

HDFS的工作方式是将文件分割成预定义大小的块。它就像做一个

split -b 64M file.xml 

并采取每个块,并将其保存到salve datanode。现在,如果您的HDFS的块大小为64MB,文件大小为1 GB,则您的文件将被拆分为16个块并保存在不同的位置。所以mapreduce作业将无法从xml文件块中理解,因为xml的结构与简单的csv或tsv文件不同。所以就我所见,如果hdfs的块大小超过hdfs,你就无法通过hdfs处理一个xml文件。

+0

我正在使用xmlinputformat – 2013-04-15 03:07:54

+0

我有几组x和y values.with这是我能够做rapidminer可视化和如何做呢??/ – 2013-04-15 03:24:43

+0

对不起,我必须仍然生活在古代时代,之前从未听说过mapreduce的xml处理或任何执行它的框架。 – FUD 2013-04-15 03:30:53