可能是一个非常愚蠢的问题,所以对我来说很容易,但在这里我去。预测使用sklearn的RandomForestRegressor
因此,这里就是我的数据看起来像......
date,locale,category,site,alexa_rank,sessions,user_logins
20170110,US,1,google,1,500,5000
20170110,EU,1,google,2,400,2000
20170111,US,2,facebook,2,400,2000
...等等。这只是我提出的一个玩具数据集,但它类似于原始数据。
我试图建立一个模型来预测使用sklearn的RandomForestRegressor
有多少用户登录和会话特定的网站会有。
我做了一些常见的事情,将标签编码为标签,我在一年的头八个月训练了我的模型,现在我想预测第九个月的登录和会话。我创建了一个训练登录的模型,另一个训练了会话。
我的测试数据集是一样的形式:
date,locale,category,site,alexa_rank,sessions,user_logins
20170910,US,1,google,1,500,5000
20170910,EU,1,google,2,400,2000
20170911,US,2,facebook,2,400,2000
理想情况下,我想在测试数据集通过不我需要预测列,但RandomForestRegressor抱怨尺寸作为之间的不同培训和测试集。
当我通过测试数据集,其目前的形式,该模型预测在大多数情况下,确切值在sessions
和user_logins
列和值,否则微小的变化。
我对测试数据中的sessions
和user_logins
列进行了清零并将其传递给模型,但该模型预测了几乎所有的零。
- 我的工作流是否正确?我正确使用RandomForestRegressor吗?
- 当我的测试数据集包含实际值时,我如何接近实际值?测试数据中的实际值是否用于预测?
- 如果模型能够正常工作,如果我将要预测的列清零(
sessions
和user_logins
),我是否应该得到相同的预测值?
你可以添加你的代码吗? –