data-analysis

0热度

1回答

我有一个用例。我想整合/转换来自不同/不同来源的数据而不存储它。数据源是数据库（oracle，db2等），Webservice（Rest/Soap），平面文件（CSV，XML，JSON），MQ转储，大型机系统。我想从这些来源获取数据，并进行某种智能转换和集成，并将其提供给我们的客户。它看起来像典型的ETL场景，但我的情况不同。我不允许存储绝望来源给出的数据，这就意味着，举个简单的例子，我从orac

-1热度

1回答

路由器/服务器/客户端可以在网络流量数据导出中识别吗？

我写关于模式的网络流量识别的论文。输入文件包含成千上万条数据线，每一个都提供信息作为时间戳，源和目的地IP地址，源和目的地端口，接口，数PF字节和数据包的源和目的地和协议之间交换。数据行中的开始和结束时间总是相同的。我的问题是，如果有可以将所有IP地址分配给类别，如路由器/服务器/客户端仅根据提供的信息，或者如果还有其他信息需要以正确地分配所有地址？（使用的端口大约是100-150，并且都是已

0热度

2回答

Python：如何构建一个用于加载数据的文本文件？

我是新来的Python，和我下面这个指南来实现一元线性回归 http://nbviewer.jupyter.org/github/jdwittenauer/ipython-notebooks/blob/master/notebooks/ml/ML-Exercise1.ipynb 基本上我在台阶上，我需要建立一个数据集将其导入到Python的我已创建的文本文件具有两个列，每列数据由制表符分隔然而

0热度

1回答

熊猫EW移动相关/协方差得到意想不到的形状

我得到一个DataFrame dff，它的形状代表5个项目和4天。我创建了一个EWM ewmm并获得了EW移动平均线。当涉及到相关性和协方差时，一个5×5的矩阵就是我所期望的，但结果是整形5×4×4。我该怎么做才对？ In[59]: dff Out[59]: 0 1 2 3 0 1 2 3 4 1 4 3 2 1 2 3 1 4 1 3 5 9 2 6 4 1 2 3

0热度

1回答

Json数据在Bluemix IOT中用于数据分析

我遵循https://www.embarcados.com.br/conectando-bosch-xdk-sensor-ibm-bluemix/提供的关于在Bluemix Watson IOT上获取我的Bosch XDK 110的json传感器数据的步骤说明。现在，问题是我想像普通的json文件那样获取传感器的json数据，并将其用于数据分析。请咨询，并提前谢谢。 Danial

0热度

1回答

为什么随机森林回归返回一个非常糟糕的结果？

我试图在scikit_learn中使用randomforestregressor()来模拟一些数据。处理完我的原始数据后，我应用于randomforestregressor()的数据如下。以下只是我的数据的一小部分。实际上，大约有6000个数据。请注意，第一列是我创建的包含所有数据的DataFrame'final_data'的datetimeindex。另外，第4栏中的数据是字符串。我只是通过

-1热度

1回答

用于故障排除的度量模式分析

当我解决一些站点问题时，我需要检查许多指标，如CPU，内存，应用程序指标等。一般情况下，我想自动知道以下项目（无需逐个检查所有指标）：有多少度量标准在此期间出现峰值。如果度量X具有与度量Y相同的模式Y 如果度量X具有一些周期性字符。对于第1项和第2项，我想我可以通过计算一些变化率来得到它。对于第3项，我目前还不知道。我这里的问题是：做我们已经有一些图书馆，可在此使用，语言（去吧，使用Ja

0热度

1回答

Pyspark自动增量交替组值

我想在Spark DataFrame中使用Pyspark创建一个新列，它代表基于交替布尔值组的自动增量（或ID）。可以说我有以下数据框： df.show() +-----+------------+-------------+ |id |par_id |is_on | +-----+------------+-------------+ |40002|1 |true | |4

0热度

1回答

找到最大化另一个属性的正确属性

我有一个模型，其中有几个属性/属性是固定的（约15个独立属性）。相同的模型有另一个属性，这是我最感兴趣的属性。我想最大化该属性的某个值。我想找出哪些固定的属性值影响最有趣的属性根据我的数据。我认为这是一个统计问题，但我不确定。一个现实生活中的例子是具有以下所有固定属性的抵押贷款数据库：银行分行，邮政编码，就业，薪水，信用评分，关系状态，子女数量等。然后我有一个属性是抵押贷款是否违约。我想找

0热度

1回答

你可以合并两个主要组件吗？

我正在对5大人格特征进行回归，以及出生顺序如何影响这些特质。首先，我试图根据捕获这些特征的调查构建5个变量。我曾想过为类别（特质）中的每个问题创建假人，然后取平均值，但其中一些问题高度相关，因此重量将错误。我做了一个主成分分析，它给了我一个特征值超过一个的四个分量。问题是，他们都没有超过40 pct。方差。有什么方法可以将四个合并为一个变量？它是因变量，所以只能有一个。否则你是否有另外一个关