我是一个完整的初学者机器学习,所以请原谅我的一般问题。机器学习 - 现场映射
我想从随机数据集的列名映射到已知数据集的列。例如,列名'image_link'需要匹配随机数据集,其中相同的列名可以是'图像链接',然后另一个可以是'img_url'。
我有一个大的数据集的每个列名
我相信机器学习是有可能帮助这一点,并开始寻找到这种不同的变化。我用python做了一些机器学习,主要是我觉得不适合这个问题的线性回归。
我已经通过谷歌做了很多研究,看看我能否得到类似的东西的任何例子,但我无法找到很多。任何人都可以帮助我,并告知我是否应该使用机器学习来解决这个问题,如果有的话,是否有任何特定的机器学习技术可能适合这个问题,所以我知道我的研究有什么方向。
任何帮助,将不胜感激。
编辑**
更多的研究后,我有种感觉像一个分类是去也许使用SVM或朴素贝叶斯的方式?
我也创建了一个非常基本的数据集,但准备处理这种数据的最佳方法是什么?
--------------------------------------------------
| **Category** | **Term** |
--------------------------------------------------
| id | SKU |
--------------------------------------------------
| id | id |
--------------------------------------------------
| id | productID |
--------------------------------------------------
| link | productLink |
--------------------------------------------------
| link | URL |
--------------------------------------------------
| link | link |
--------------------------------------------------
| image_large | Image |
--------------------------------------------------
| image_large | ImageMedium |
--------------------------------------------------
| image_large | image_link |
--------------------------------------------------
| image_thumb | ImageSmall |
--------------------------------------------------
| image_thumb | Image |
--------------------------------------------------
| image_thumb | image link |
--------------------------------------------------
谢谢您的回答:)我已经使用了Levenshtein距离实现模糊搜索。问题是我们也可能有'标题'这样的东西,也可能有'名称'或'产品'等其他列名称,这将失败使用此方法。 – Neil