机器学习 - 现场映射

我是一个完整的初学者机器学习，所以请原谅我的一般问题。机器学习 - 现场映射

我想从随机数据集的列名映射到已知数据集的列。例如，列名'image_link'需要匹配随机数据集，其中相同的列名可以是'图像链接'，然后另一个可以是'img_url'。

我有一个大的数据集的每个列名

我相信机器学习是有可能帮助这一点，并开始寻找到这种不同的变化。我用python做了一些机器学习，主要是我觉得不适合这个问题的线性回归。

我已经通过谷歌做了很多研究，看看我能否得到类似的东西的任何例子，但我无法找到很多。任何人都可以帮助我，并告知我是否应该使用机器学习来解决这个问题，如果有的话，是否有任何特定的机器学习技术可能适合这个问题，所以我知道我的研究有什么方向。

任何帮助，将不胜感激。

编辑**

更多的研究后，我有种感觉像一个分类是去也许使用SVM或朴素贝叶斯的方式？

我也创建了一个非常基本的数据集，但准备处理这种数据的最佳方法是什么？

-------------------------------------------------- 
| **Category**  |  **Term**   | 
-------------------------------------------------- 
|  id    |   SKU   | 
-------------------------------------------------- 
|  id    |   id    | 
-------------------------------------------------- 
|  id    |  productID   | 
-------------------------------------------------- 
|  link    |  productLink  | 
-------------------------------------------------- 
|  link    |   URL   | 
-------------------------------------------------- 
|  link    |  link   | 
-------------------------------------------------- 
| image_large  |  Image   | 
-------------------------------------------------- 
| image_large  |  ImageMedium  | 
-------------------------------------------------- 
| image_large  |  image_link   | 
-------------------------------------------------- 
| image_thumb  |  ImageSmall   | 
-------------------------------------------------- 
| image_thumb  |  Image   | 
-------------------------------------------------- 
| image_thumb  | image link   | 
--------------------------------------------------

来源

2017-08-03 Neil

我认为你可以使用Levenshtein distance，它测量单词和短语之间的差异或距离。 python和R有很多实现。您可以将unkwon列名称分配给更接近或已知类似规则的已知密钥。

您还可以检查here

来源

2017-08-03 18:45:54 RZRKAL

谢谢您的回答:)我已经使用了Levenshtein距离实现模糊搜索。问题是我们也可能有'标题'这样的东西，也可能有'名称'或'产品'等其他列名称，这将失败使用此方法。 – Neil

机器学习 - 现场映射

回答

相关问题