我正在寻找一种对不同格式的10位(大部分)整数密钥进行分类的算法。训练数据集看起来像这样:分类10位密钥的算法
+------------+----------------+
| key | classification |
+------------+----------------+
| 1000| US |
| 1000045331 | US |
| 000| DE |
| 0003453202 | DE |
| 000K213411 | ES |
| 000K243221 | ES |
+------------+----------------+
这些密钥来自不同的系统并以不同的方式创建。有大量的训练数据集可用。虽然我认为这些密钥的某些部分是随机的,但结构并非如此。
任何帮助将不胜感激。
我认为你可以计算每个类别的最长公共子字符串,因为结构看起来是根据示例定义的。 10000-> US,000-> DE,000K2-> ES –
密钥如何以不同方式创建的不同系统不重叠?很可能有一个范围和代码系统。 – stefan