我有一个非标准化的表格,显示了汽车销售详细信息汽车制造商,型号和子模型。因为它没有被标准化,所以它没有涉及汽车制造的标识,模型和子模型,而是具有真正的价值。这些值是由一名员工手动输入到将要迁移的旧应用程序中,因此可能会出现诸如拼写错误,类似的文字,空格,破折号等许多问题。数据从非标准化表格迁移到标准化表格
我创建了一个规范化表,我需要将现有数据从非规范化表迁移到新的规范化表。我需要找到与每个值对应的ID(汽车制造ID,型号和子模型)。但是,这并不容易,因为例如奥迪(汽车制造)A4(车型)1.8T(子型号)可以写成奥迪A4 1.8Turbo或奥迪A4 1.8Turbo Injection或奥迪A4 1.8 TFI等。所以,同一个实体的许多不同的文本值。 考虑到上面给出的上下文,我认为获取ID的最佳选择是为每个实体设置一个别名表。例如,CarSubModelAlias。这些表格将指定映射到相同实体的所有不同值。 不幸的是,我有超过3,500个子模型,并且很难填充这些表格。
任何意见或建议?
它将永远是这种情况下涉及的数据清理元素。通过首先提取所有完美匹配,然后通过模糊查找来传递剩余行以找到最佳匹配,SSIS可能是一个不错的选择,可以逐步减少问题。 – Jayvee