2016-01-08 98 views
0

[我输入图像描述] [1]我很难找出回归是我需要去的路线,以便用Python解决我目前的挑战。这是我的情景:Python熊猫回归

  • 我有一个熊猫数据帧是195行×25列
  • 的所有数据(除指数和标头)为整数
  • 我有一个特定的列(列B)是我想与所有其他列进行比较
  • 试图确定是否存在影响或影响列B的任何列中的数字范围
  • 我想在Python中计算的结果示例类似于到:当列D中的数据在10.20之间时,B列在3.5以上 - 16.4

我一直在用Python中的Regression在线阅读的例子看起来会产生我不需要的图表和统计数据(或者我可能解释不正确)。我相信用恰当的措辞来描述我所要求的是,识别Pandas数据框中两列间的线性特定值或一系列值。

任何人都可以帮助指向正确的方向吗?

谢谢大家提前!

+0

所以你想要实现的是,当列D中的数据在10.20 - 16.4之间时,确定列B是否高于3.5?你能提供一些样本数据框? – 2342G456DI8

+0

我想了解哪些数字或范围会影响B列的结果。我会很快发布一个示例数据框。 – Giltzer

+0

对不起,我无法添加附件。数据框的复制/粘贴显示不正确。 – Giltzer

回答

1

您的目标听起来很像在这一点上的探索性数据分析。你应该首先计算你的目标column B和任何其他column之间的correlation使用pandas.Series.corr(这实际上是一样的二元回归),你可能list

other_cols = [col for col in df1.columns if col !='B'] 
corr_B = [{other: df.loc[:, 'B'].corr(df.loc[:, other])} for other in other_col] 

要获得特定范围内的手柄,我会建议看:

  • cutqcut功能bin您的数据,只要你喜欢,要么情节或相应关联的子集:看文档herehere

形象化二元和多元简单的关系,我会建议

  • seaborn包,因为它包括各种类型的旨在帮助您获得共变的变量之间的快速把握地块。参见例如单变量和双变量分布的例子,线性关系图here和分类数据图here

上面的内容应该有助于你理解双变量关系。一旦你想进入多元关系,你可以返回到python恕我直言,最适合这个的scikit-learnstatsmodels包。希望这有助于你开始。

+0

比你对你的帖子和建议非常感兴趣。 – Giltzer

+0

不客气。只要让我知道你是否需要澄清上述内容,或者现在是否回答你的问题。 – Stefan