0

我想使用自定义数据集,其中包含除英语以外的其他语言的手写字符图像。我打算使用分类手写字符的KNN算法。使用自定义数据集而不是MNIST进行培训

下面是我在这个时间点面临的一些挑战。 1.图像大小不同。 - 我们如何解决这个问题,使用Python完成任何ETL工作? 2.即使我们假设它们具有相同的尺寸,每个图像的潜在像素将在70 * 70左右,因为字母比英文复杂且字符之间具有许多特征。 - 这对我的训练和表现有什么影响?

回答

1
  1. 选择一个尺寸并调整所有图像的大小(例如使用PIL模块);

  2. 我想这取决于数据的质量和语言本身。如果字母很复杂(如象形文字),这将是困难的。另外,如果字母用细线绘制,即使在小图片中也可以识别。

无论如何,如果绘制的字母彼此过于相似,当然会更难识别它们。如下所示:http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

相关问题