logistic-regression

    2热度

    2回答

    我使用sklearn包构建逻辑回归模型,然后对其进行评估。具体来说,我想要使用交叉验证来做到这一点,但无法找到使用cross_val_score函数的正确方法。 按照documentation和一些examples我看见了,我需要通过功能的型号,功能,结果和评分方法。然而,AUC不需要预测,它需要概率,因此它可以尝试不同的阈值并基于此计算ROC曲线。那么这里的正确方法是什么?这个函数有'roc_a

    0热度

    1回答

    我通过spark.ml.classification.LogisticRegressionModel.predict得到预测。多个行具有prediction列作为1.0和probability列作为.04。 model.getThreshold是0.5,所以我会假设该模型将0.5概率阈值的所有内容归类为1.0。 我该如何解释1.0 prediction和probability为0.04的结果?

    0热度

    2回答

    我想弄清楚在Knime工具中实现的Logistic回归。请参阅https://github.com/knime/knime-core/blob/master/org.knime.base/src/org/knime/base/node/mine/regression/logistic/learner3/Learner.java 在irlsRls方法,也有使用像 RealMatrix x = new

    1热度

    1回答

    我试图使用MASS程序包的polr()函数来估计具有集群标准错误的有序逻辑回归。没有内置的集群功能,因此我正在寻找(a)软件包或(b)使用模型输出计算集群标准错误的手动方法。我计划使用margins包来估计模型的边际效应。 下面是一个例子: library(MASS) set.seed(1) obs <- 500 # Create data frame dat <- data.frame

    -1热度

    1回答

    如果我运行4个基本的逻辑回归,我可以得到predict_proba数组。 我该如何手动计算使用系数和截距的概率?获得与prediction_proba相同的答案的确切步骤是什么? 似乎有关于这个在线的多个问题和几个建议是不完整的或无论如何不匹配。 例如,我不能从我的sklearn模型复制这个过程,所以缺少什么? https://stats.idre.ucla.edu/stata/code/manu

    2热度

    1回答

    我对某些数据运行logit回归。我的因变量是二元的,因为它们都是我的独立变量之一。 当我跑我的回归,STATA下降很多我的自变量,并给出了错误: "variable name" != 0 predicts failure perfectly "variable name" dropped and "a number" obs not used 我知道一个事实,某些变量的下降并不能预测完全失败。换句

    0热度

    1回答

    我在spark上为合成数据集做LogisticRegressionWithSGD。我已经使用香草梯度下降法计算了matlab上的误差,R上约为5%。我的模型中使用了类似的权重,我用它来生成y。数据集使用this示例生成。 虽然我能够在不同的步长调整以最终获得非常接近的误码率,对于个人特征的权重是不一样的。事实上,它变化很大。我尝试了LBFGS的火花,并且能够在少量迭代中正确预测错误和重量。我的问题

    0热度

    1回答

    我正在运行Logistic回归并用stargazer报告结果。我注意到,当我使用apply.coef = OR选项(以便报告比值比)时,显着性星星报告错误 - 在某些情况下,没有星星而不是三颗星,有时在那里有星星不应该。例如, ; stargazer(basic.logit.model, type="html", apply.coef = OR, column.

    0热度

    1回答

    我的代码如下: from pyspark.ml.classification import LogisticRegression lr = LogisticRegression(featuresCol="features", labelCol="label") lrm = lr.fit(transformed) predictions = lrm.transform(transformed)

    0热度

    2回答

    与R中传统循环有关的大多数问题通过使用代码较少的函数来解释,并且通常更灵活。 然而,请纠正我,我觉得迭代次序很重要,因为循环仍然占主导地位。 在我的情况下,我想建立一个顺序和累积调整逻辑回归模型,存储OR/CIs和一列显示正在调整的内容。这是我的预期输出: Model OR CI Biomarker +Age +Sex +Smoking 这里就是我所做的: df1 <- subs