从集群上的HDFS读取数据

我正尝试使用Jupiter Notebook从AWS EC2集群上的HDFS读取数据。它有7个节点。我正在使用HDP 2.4，我的代码如下。该表有数百万行，但代码不会返回任何行。“ec2-xx-xxx-xxx-xx.compute-1.amazonaws.com”是服务器（ambari-server）。从集群上的HDFS读取数据

from pyspark.sql import SQLContext 
sqlContext = HiveContext(sc) 
demography = sqlContext.read.load("hdfs://ec2-xx-xx-xxx-xx.compute-1.amazonaws.com:8020/tmp/FAERS/demography_2012q4_2016q1_duplicates_removed.csv", format="com.databricks.spark.csv", header="true", inferSchema="true") 
demography.printSchema() 
demography.cache() 
print demography.count()

但使用sc.textFile，我得到行

data = sc.textFile("hdfs://ec2-xx-xxx-xxx-xx.compute-1.amazonaws.com:8020/tmp/FAERS/demography_2012q4_2016q1_duplicates_removed.csv") 
schema= data.map(lambda x: x.split(",")).first() #get schema 
header = data.first()       # extract header 
data=data.filter(lambda x:x !=header)   # filter out header 

data= data.map(lambda x: x.split(",")) 
data.count() 
3641865

来源

2016-08-02 Fisseha Berhane

我不确定这个问题需要jupyter标签。您可以在Spark壳中运行相同的代码。 –

哦，和PS，你应该1）不给实际地址的集群和2）你**真的**应改变默认登录;） –

谢谢。事实上，当我复制代码形式木星时，就发生了这种情况。 –