2017-09-13 92 views
0

在MNIST集上训练好模型后,我如何将图像分类为两位数?更一般地说,我该如何训练一个模型来检测图像上的任意数量的数字?在MNIST上进行培训,检测数字序列?

+1

你已经得到了有关技术信息的答案。我想在讨论中添加一个附注。在简单地对MNIST数据集进行训练时,您无法做到您想要的(检测图像中的更多数字)。您需要更有创意,因为您可能使用的网络架构与RCNN有很大不同。 – Umberto

回答

1

有一个叫做“对象检测”的热门领域试图做你想做的事情。一般来说,您可以检测任何图像甚至视频中的任何内容(数字,人物,汽车等)。

在国家的最先进的技术大致可分为两类:

  1. Faster-RCNN,它首先提出了很多的候选窗口的关注的对象,然后检测实际上这些是什么窗口内。
  2. SSD,与Faster-RCNN相比,它只扫描一次图像并检测对象,速度更快但不可靠。

一个众所周知的实时目标检测方法是YOLO(只一次的样子),其中落在SSD类别,并有一个非常令人印象深刻的实时演示here,给你的对象感检测。搜索这些方法的名称,你会发现很多满足你的需求的示例代码。

如果您只是在寻找数字检测,也检查斯坦福的House Number Dataset周围的工作。但是,请注意,这些作品通常来自五年以前,并不一定会击败Faster-RCNN和SSD等通用方法。