outliers

    3热度

    1回答

    我目前正在努力查明在我的数据使用Python中IsolationForest方法设置异常,但不完全理解上sklearn的例子: http://scikit-learn.org/stable/auto_examples/ensemble/plot_isolation_forest.html#sphx-glr-auto-examples-ensemble-plot-isolation-forest-p

    0热度

    1回答

    我使用下面的代码尝试用特定的值替换低于底部2.5%和高于顶部97.5%的变量值。您可以执行该代码。它提供了开放的数据文件。 credit<-read.csv("http://freakonometrics.free.fr/german_credit.csv", header=TRUE) fun <- function(x){ quantiles <- quantile(x, c(.02

    2热度

    1回答

    我想将this file转换为pandas数据框。 import pandas as pd import scipy.io mat = scipy.io.loadmat('cardio.mat') cardio_df = pd.DataFrame(mat) 我得到这个错误: Exception: Data must be 1-dimensional

    -1热度

    1回答

    我在这里遇到了一个大问题,我真的很感谢一些帮助。基本上我有一个大的数据框,看起来像这样。请注意所有此R代码在终端而不是R STUDIO! ![据帧] http://imgur.com/a/ftUZ5 我试图做的是通过独特的val_lvl2处理单独数据帧。 下面是代码,正是我想要做的,但规模更大。 功能代码: remove_outliers <- function(x, na.rm = TRUE,

    -1热度

    1回答

    我有一个不包含异常训练数据集: train_vectors.shape (588649, 896) 而且,我有另一组测试向量(test_vectors),以及所有的人都异常值。 这是我在做异常检测尝试: from sklearn.ensemble import IsolationForest clf = IsolationForest(max_samples=0.01) clf.fit(

    1热度

    1回答

    的整个数据集(基于Tukey和分类变量的每个级别)中替换异常值如何基于分类变量检测所有数据集(所有连续列)的异常值并将其替换为NA。我想使用Tukey技术,但是关注分类变量的每个级别。例如,根据mtcars$am 的每个级别,用NA替换mtcars[, -c(8,9)]的异常值或如何修改此代码以适用于每个级别中的所有变量。 lapply(mtcars, function(x){sort(outli

    0热度

    1回答

    我使用函数FastPCS检测大型多元数据集中的异常值。当我从这个函数得到结果时,它们以$最好的形式出现,因为数据来自于行号。如何获取该行号并使用它来获取原始数据框中该行中的数据? install.packages("FastPCS") library(FastPCS) u = FastPCS(ft[,2:11],alpha = .75) 英尺是一个大的多元数据框。

    3热度

    1回答

    问题 我有在任何时间> 5个变量的组成一个数据帧,我试图做的是K均值。由于K-Means很大程度上受到异常值的影响,因此我一直试图寻找几个小时来计算和删除多变量异常值。大多数的例子都有两个变量。 可能的解决方案探讨的 mvoutlier - 这里种类用户注意的是,mvoutlier可能是我所需要的。 Another Outlier Detection Method - 此处的海报注释了R函数的混合

    1热度

    2回答

    我有以下问题: 我有一个数据帧,可以达到约600万行。在该数据帧中的列的含有一定的ID。 ID NaN NaN D1 D1 D1 NaN D1 D1 NaN NaN NaN NaN D2 NaN D2 NaN NaN NaN NaN D3 NaN D3 NaN D3 NaN NaN 我想让包含在ID之间的NaN与ID相同。因此,上面的DF应该

    0热度

    1回答

    我有一些数据由一个NMEA GPS字符串加时间标记,我将其解码以获得单一数据点Year,Month,Day等。 问题是,在很少的情况下,GPS(可能是由于一些信号损失)变得不稳定,它吐出了非常非常错误的东西。这会在时间戳数据中产生尖峰,正如您可以从附图中看到的那样,它会绘制GPS输出的天数向量。 正如你所看到的,GPS数据一般都很乖,和1 30/31每个月的天走在下月回落至1日前。但在某些时候,G