最近,我在带有Win10操作系统的PC上试用了Google的Inception图像分类器。基本上我经历了这个tutorial/manual。如何在Hadoop环境中对Inception图像分类器进行再培训
一言以蔽之的步骤是这些:
- 安装泊坞
- 安装Tensorflow
- 获取图片
- 检索训练码(retrain.py)
- 重新训练盗梦空间(运行retrain.py)
- 在图像上使用分类器
我的问题是我想要做同样的事情,但在Hadoop环境中,不幸的是我不知道该怎么做,因为我是Hadoop中的新成员。我试图谷歌这个主题,但我没有找到任何有用的结果。
我的Hadoop集群包含4个带有Hadoop,Hive和Spark的Raspberry Pi。如果我是正确的,至少有两路做Hadoop的再培训过程:
- 创建一个Hadoop流运行植酮代码
- 安装pySpark,并做了“神奇”使用
与第一选择去我想象的步骤可以是这些:
(Python是预先安装上NOOB)
- 把图像到HDFS
- 安装Tensorflow库和工具
- 检索训练码和全样本集Tensorflow的
创建一个Hadoop流运行再培训过程
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc -file (a python file which executes **)
在图片上使用分类器
** = $python tensorflow/examples/image_retraining/retrain.py \ --bottleneck_dir=/tf_files/bottlenecks \ --how_many_training_steps 500 \ --model_dir=/tf_files/inception \ --output_graph=/tf_files/retrained_graph.pb \ --output_labels=/tf_files/retrained_labels.txt \ --image_dir /tf_files/(myImages)
与第二种方式去......我不知道
如果有人可以给些建议,详细的步骤或只是告诉我一些指导,我真的很感激。