2017-10-19 72 views
0

为了做一个关于字符识别的项目,我找到了一个我可以用作训练集的数据库。另一方面,即使给出了下面的说明,我也无法理解给定的格式。如何找出这种格式,我找不到进一步的帮助。了解这个字符数据库格式

字段1-6以逗号分隔。源制品的


  1. ID号码
  2. 2字节符号代码(写在十六进制,使用4个字节)的位图
  3. 位图的
  4. 字符宽度
  5. 位图图像的
  6. 字符高度,其中每个8位单位被写为0到255的小数
  7. 换行

下面附加了数据库文件(Google驱动器)的链接。

https://drive.google.com/file/d/0B-WsCQkhd_1iUUtJdHg0R1hfTHM/view?usp=sharing

这将是很大的帮助,如果有人能想出这种格式呈现的方式。这实际上令我困惑。

回答

0

那么,据我了解这种格式,每个字符描述需要一行(直到换行符号)。源制品的

  1. ID号码
  2. 字节符号代码(写在十六进制,使用4个字节)的位图的
  3. 字符高度
  4. 位图的
  5. 字符宽度
  6. 位图图像,其中每个8-位单位被写为从0到255的小数 - 在这里魔法开始。位图图像不仅是一个逗号分隔值,而且还包括所有值,直到符合换行。所以它会有很多逗号分隔值,您可以使用位图高度和宽度值在行中进行划分。

如果您在例如Notepad ++而不是stanart windows notepad中打开此文件,您将获得更好的视图(打开“显示所有字符”以查看换行符)。

希望它能帮助你。

+0

谢谢你的回应。但我仍然无法分解哪些列是为什么...比如哪一列为高度,哪一列为宽度,哪一列为符号代码等。 –

+0

1列必须是ID。 2-3可能是一个2字符的代码,每列1字节,3 - 高度,4 - 宽度,我无法理解的下一列,但自身位图数据可能从第15列开始,至少所有值在该列之后的范围从0到255,每个值中的每一位代表一个像素(可能),我不确定第5-14列的目的是什么。 –

+0

谢谢,高度和宽度,你的意思是第4和第5列的权利。 –