data-analysis

    0热度

    1回答

    我有一个用例。我想整合/转换来自不同/不同来源的数据而不存储它。数据源是数据库(oracle,db2等),Webservice(Rest/Soap),平面文件(CSV,XML,JSON),MQ转储,大型机系统。我想从这些来源获取数据,并进行某种智能转换和集成,并将其提供给我们的客户。它看起来像典型的ETL场景,但我的情况不同。我不允许存储绝望来源给出的数据,这就意味着,举个简单的例子,我从orac

    -1热度

    1回答

    我写关于模式的网络流量识别的论文。输入文件包含成千上万条数据线,每一个都提供信息作为时间戳,源和目的地IP地址,源和目的地端口,接口,数PF字节和数据包的源和目的地和协议之间交换。数据行中的开始和结束时间总是相同的。 我的问题是,如果有可以将所有IP地址分配给类别,如路由器/服务器/客户端仅根据提供的信息,或者如果还有其他信息需要以正确地分配所有地址? (使用的端口大约是100-150,并且都是已

    0热度

    2回答

    我是新来的Python,和我下面这个指南来实现一元线性回归 http://nbviewer.jupyter.org/github/jdwittenauer/ipython-notebooks/blob/master/notebooks/ml/ML-Exercise1.ipynb 基本上我在台阶上,我需要建立一个数据集将其导入到Python的 我已创建的文本文件具有两个列,每列数据由制表符分隔 然而

    0热度

    1回答

    我得到一个DataFrame dff,它的形状代表5个项目和4天。我创建了一个EWM ewmm并获得了EW移动平均线。 当涉及到相关性和协方差时,一个5×5的矩阵就是我所期望的,但结果是整形5×4×4。 我该怎么做才对? In[59]: dff Out[59]: 0 1 2 3 0 1 2 3 4 1 4 3 2 1 2 3 1 4 1 3 5 9 2 6 4 1 2 3

    0热度

    1回答

    我遵循https://www.embarcados.com.br/conectando-bosch-xdk-sensor-ibm-bluemix/提供的关于在Bluemix Watson IOT上获取我的Bosch XDK 110的json传感器数据的步骤说明。现在,问题是我想像普通的json文件那样获取传感器的json数据,并将其用于数据分析。 请咨询,并提前谢谢。 Danial

    0热度

    1回答

    我试图在scikit_learn中使用randomforestregressor()来模拟一些数据。处理完我的原始数据后,我应用于randomforestregressor()的数据如下。 以下只是我的数据的一小部分。实际上,大约有6000个数据。 请注意,第一列是我创建的包含所有数据的DataFrame'final_data'的datetimeindex。另外,第4栏中的数据是字符串。我只是通过

    -1热度

    1回答

    当我解决一些站点问题时,我需要检查许多指标,如CPU,内存,应用程序指标等。一般情况下,我想自动知道以下项目(无需逐个检查所有指标): 有多少度量标准在此期间出现峰值。 如果度量X具有与度量Y相同的模式Y 如果度量X具有一些周期性字符。 对于第1项和第2项,我想我可以通过计算一些变化率来得到它。对于第3项,我目前还不知道。 我这里的问题是: 做我们已经有一些图书馆,可在此使用,语言(去吧,使用Ja

    0热度

    1回答

    我想在Spark DataFrame中使用Pyspark创建一个新列,它代表基于交替布尔值组的自动增量(或ID)。可以说我有以下数据框: df.show() +-----+------------+-------------+ |id |par_id |is_on | +-----+------------+-------------+ |40002|1 |true | |4

    0热度

    1回答

    我有一个模型,其中有几个属性/属性是固定的(约15个独立属性)。 相同的模型有另一个属性,这是我最感兴趣的属性。我想最大化该属性的某个值。 我想找出哪些固定的属性值影响最有趣的属性根据我的数据。我认为这是一个统计问题,但我不确定。 一个现实生活中的例子是具有以下所有固定属性的抵押贷款数据库:银行分行,邮政编码,就业,薪水,信用评分,关系状态,子女数量等。然后我有一个属性是抵押贷款是否违约。 我想找

    0热度

    1回答

    我正在对5大人格特征进行回归,以及出生顺序如何影响这些特质。首先,我试图根据捕获这些特征的调查构建5个变量。我曾想过为类别(特质)中的每个问题创建假人,然后取平均值,但其中一些问题高度相关,因此重量将错误。 我做了一个主成分分析,它给了我一个特征值超过一个的四个分量。问题是,他们都没有超过40 pct。方差。 有什么方法可以将四个合并为一个变量?它是因变量,所以只能有一个。 否则你是否有另外一个关