2017-05-23 70 views
-1

我有一个大型的二手车表。 标题是这样的:使用机器学习来预测二手车的价格

maker | model | year | kilometers | transmission | gas_type | price 

我做了一个预测模型,这项工作是这样的:每次我想知道一辆车的价格时,我通过品牌和型号过滤数据,然后我跑二次回归,以年和公里为参数。

结果是确定的,但不适用于每辆车。

问题是,同一个制造商和型号有不同的“版本”。 (它与完整版本不同,不是简单版本,或4WD或皮革座椅等)

如何识别差异?我可以使用某种聚类来识别具有相同型号和制造商的汽车之间的不同版本。

任何帮助将不胜感激

+0

集群会犯更多的错误。它会尝试合并相似的模型。 –

回答

0

这不是一个聚类问题,只是一个子模型特征。此外,您可能还想区分不同型号(标准版,豪华版,两厢车等)与独立于模型的功能(4WD,真皮座椅,高级音响系统,天窗等)之间的区别。子模型可能是单个特征(文本列),而选项可能是单个特征(布尔列)。

更新后OP澄清

我看到:这些功能是输出,不输入

是的,你可以使用聚类。但是,这可能会或可能不会识别子模型(您的“版本”)。如果只聚类具有相似用途(千米)和所有其他特征相等的观测数据,则会发现有些有用的聚类。但是,这只适用于版本是剩余价格变化的主要因素。您可能会发现您的群集还受到地理区域和其他因素的影响。

+0

我没有版本数据,因为我在表格标题中显示。我正在寻求一种方法来推断这些信息。 – Marcelo