outliers

    2热度

    1回答

    我试图改变一个大熊猫据帧对象到包含点基于一些简单的阈值分类的新对象: 值转换到0如果点是NaN 值转换到1如果点为负或0 值转换到2如果它落在基于整个塔外某些标准 值是3否则 这是一个非常简单的自包含例如: import pandas as pd import numpy as np df=pd.DataFrame({'a':[np.nan,1000000,3,4,5,0,-7,9,10],

    0热度

    1回答

    是否有任何方法可以使用递归曲线拟合和删除相对于曲线的均方误差最大的数据集进行异常检测,直至达到可接受的阈值? 我使用python 2.7的scipy.optimize.curve_fit函数,而且我需要使用python。

    2热度

    1回答

    我有一大组数据点。我尝试用boxplot来绘制它们,但某些异常值是完全相同的值,并且它们在一行旁边表示。我发现How to set the horizontal distance between outliers in gnuplot boxplot,但它并没有太多帮助,因为它显然是不可能的。 是否可以将异常值组合在一起,打印一个点,然后在旁边的括号内打印一个数字以指示有多少个点?我认为这会使图形

    1热度

    1回答

    数据:我有一个数据d在一列而变化为其他两个变量的函数,一个和b,在其他两列中定义。我的目标是在d中识别块或异常值。这些异常值可能不是异常值,但对于我的情况,我想确定那些不符合可用线性拟合的数据云的数据。 问题:即使我以前从未做过聚类分析,名字听起来像是它可以实现我想要做的。在情况下,我选择了做聚类分析,我想这样做,针对两种情况如下: 与一个和d 与一个,b and d 我做了一些搜索并找到了#1,

    8热度

    1回答

    极端值的指示,我在我的数据集的一些非常,非常少数离群作出困难的箱线图看: library(ggplot2) mtcars$mpg[1] <- 60 p <- ggplot(mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() 因此,我想指出的极端值像这样: 任何想法如何做到这一点的ggplot2?改造轴不是我的选择...

    1热度

    1回答

    如何从locfit.robust的输出中提取出预测结果? 我已经想出了如何绘制它,但我没有看到如何实际提取预测。示例数据如下。 df <- structure(list(x = c(45.0166666666667, 2.93361111111111, 22.7677777777778, 34.6702777777778, 38.9808333333333, 2.07138888888889,

    0热度

    1回答

    例如,一个产品的数量与价格, 如果我发现了具体的数量,价格太离谱了, 有没有统计数字显示多少区别于R中回归线的点? 或让我们说如何测量从图上特定点到回归线的距离? 感谢您的输入

    1热度

    1回答

    我怀疑:在以下输出中实现k个最近邻居(k = 3)。 ELKI GUI的详细输出,运行LOFalgorithm,lof.k = 2。 LOF #1/3: Materializing LOF neighborhoods. de.lmu.ifi.dbs.elki.index.preprocessed.knn.MaterializeKNNPreprocessor.**k: 3** Materiali

    0热度

    1回答

    我有一个包含足球比赛投注的数据集。我使用3个参数进行异常值检测,主队获胜的几率,比赛以平局结束的几率以及客队获胜的几率。 每个记录看起来是这样的: Home Draw Away 1.320 5.700 13.500 我已经确定了集群但我有难以识别哪一个包含了噪音,最合理的似乎是最后一个簇(即,如果我有10个集群,集群10将是噪音。) 这是从我的数据集中使用DBSCAN获取异常值的正确方法,有

    0热度

    1回答

    我想在c#中显示椭圆。我的代码是好的,当R中运行,但我从C#像这样得到的消息: “对象是静态的;不允许操作(从HRESULT异常:0x8004000B(OLE_E_STATIC))” 这里这是我的代码: df.rconn.Evaluate("library(cluster)") df.rconn.Evaluate("library(rrcov)") public void setScatter