我有一个大型的二手车表。 标题是这样的:使用机器学习来预测二手车的价格
maker | model | year | kilometers | transmission | gas_type | price
我做了一个预测模型,这项工作是这样的:每次我想知道一辆车的价格时,我通过品牌和型号过滤数据,然后我跑二次回归,以年和公里为参数。
结果是确定的,但不适用于每辆车。
问题是,同一个制造商和型号有不同的“版本”。 (它与完整版本不同,不是简单版本,或4WD或皮革座椅等)
如何识别差异?我可以使用某种聚类来识别具有相同型号和制造商的汽车之间的不同版本。
任何帮助将不胜感激
集群会犯更多的错误。它会尝试合并相似的模型。 –