0
有人可以发布一个ClusterSpec用于在YouTube-8m Challenge code中定义的模型的分布式培训吗? The code尝试从TF_CONFIG环境变量加载集群规范。但是,我不确定TF_CONFIG的价值应该是什么。我可以在一台机器上访问2个GPU,只需要运行具有数据级并行性的模型。如何为分布式YoutTube-8m挑战训练编写集群规范?
有人可以发布一个ClusterSpec用于在YouTube-8m Challenge code中定义的模型的分布式培训吗? The code尝试从TF_CONFIG环境变量加载集群规范。但是,我不确定TF_CONFIG的价值应该是什么。我可以在一台机器上访问2个GPU,只需要运行具有数据级并行性的模型。如何为分布式YoutTube-8m挑战训练编写集群规范?
如果您想以分布方式运行YouTube 8m挑战码,您必须编写一个yaml文件(这里有一个由Google提供的示例yaml文件),然后您需要将此yaml文件所在的参数。 TF_CONFIG引用用于训练模型的配置变量。
例如,对于在谷歌运行以分布式的方式云的起始代码,我使用:
JOB_NAME=yt8m_train_$(date +%Y%m%d_%H%M%S); gcloud --verbosity=debug ml-engine jobs \
submit training $JOB_NAME \
--package-path=youtube-8m --module-name=youtube-8m.train \
--staging-bucket=$BUCKET_NAME --region=us-east1 \
--config=youtube-8m/cloudml-gpu-distributed.yaml \
-- --train_data_pattern='gs://youtube8m-ml-us-east1/1/frame_level/train/train*.tfrecord' \
--frame_features=True --model=LstmModel --feature_names="rgb,audio" \
--feature_sizes="1024, 128" --batch_size=128 \
--train_dir=$BUCKET_NAME/${JOB_TO_EVAL}
参数配置是指向YAML文件cloudml-GPU-以下规格distributed.yaml:
trainingInput:
runtimeVersion: "1.0"
scaleTier: CUSTOM
masterType: standard_gpu
workerCount: 2
workerType: standard_gpu
parameterServerCount: 2
parameterServerType: standard