我在写一个抓取页面的hadoop作业。我正在使用的库使用文件系统在爬网时存储爬网数据。我确信这个库将不得不被修改为使用HDFS,因为当我使用的爬虫库使用java.io时,需要使用完全不同的一组类来接口HDFS。为什么使用hdfs://前缀作为文件路径允许打开文件?
但是,当一位同事使用hdfs:// localhost/path/to/storage时,抓取程序工作的存储文件夹的路径可以写入文件系统。我试图理解为什么这会起作用,基于hadoop的jvms有什么不同,导致他们解决HDFS上hdfs://路径的前缀路径?
你确定它在HDFS中不在本地文件系统中?) – 2012-04-05 11:43:01
@ThomasJungblut你是对的。它实际上是写入本地文件系统。 – rsman 2012-04-17 14:36:56