2017-08-03 45 views
1

我是一个完整的初学者机器学习,所以请原谅我的一般问题。机器学习 - 现场映射

我想从随机数据集的列名映射到已知数据集的列。例如,列名'image_link'需要匹配随机数据集,其中相同的列名可以是'图像链接',然后另一个可以是'img_url'。

我有一个大的数据集的每个列名

我相信机器学习是有可能帮助这一点,并开始寻找到这种不同的变化。我用python做了一些机器学习,主要是我觉得不适合这个问题的线性回归。

我已经通过谷歌做了很多研究,看看我能否得到类似的东西的任何例子,但我无法找到很多。任何人都可以帮助我,并告知我是否应该使用机器学习来解决这个问题,如果有的话,是否有任何特定的机器学习技术可能适合这个问题,所以我知道我的研究有什么方向。

任何帮助,将不胜感激。

编辑**

更多的研究后,我有种感觉像一个分类是去也许使用SVM或朴素贝叶斯的方式?

我也创建了一个非常基本的数据集,但准备处理这种数据的最佳方法是什么?

-------------------------------------------------- 
| **Category**  |  **Term**   | 
-------------------------------------------------- 
|  id    |   SKU   | 
-------------------------------------------------- 
|  id    |   id    | 
-------------------------------------------------- 
|  id    |  productID   | 
-------------------------------------------------- 
|  link    |  productLink  | 
-------------------------------------------------- 
|  link    |   URL   | 
-------------------------------------------------- 
|  link    |  link   | 
-------------------------------------------------- 
| image_large  |  Image   | 
-------------------------------------------------- 
| image_large  |  ImageMedium  | 
-------------------------------------------------- 
| image_large  |  image_link   | 
-------------------------------------------------- 
| image_thumb  |  ImageSmall   | 
-------------------------------------------------- 
| image_thumb  |  Image   | 
-------------------------------------------------- 
| image_thumb  | image link   | 
-------------------------------------------------- 

回答

0

我认为你可以使用Levenshtein distance,它测量单词和短语之间的差异或距离。 pythonR有很多实现。您可以将unkwon列名称分配给更接近或已知类似规则的已知密钥。

您还可以检查here

+0

谢谢您的回答:)我已经使用了Levenshtein距离实现模糊搜索。问题是我们也可能有'标题'这样的东西,也可能有'名称'或'产品'等其他列名称,这将失败使用此方法。 – Neil