data-analysis

    -2热度

    1回答

    我有一个数据帧df在pandas这样的: signal1 timestamp 2017-08-23 21:30:00.012 181643.0 2017-08-23 21:31:00.002 181635.0 2017-08-23 21:32:00.003 181630.0 2017-08-23 21:33:00.006

    0热度

    2回答

    我对Iris数据集Iris data-set执行了t检验。我计算了萼片和花瓣的长度和宽度之间的比例,并创建了一个名为IrisLeafRatio.csv的新数据集。 import scipy.stats as stats # First, we'll import pandas, a data processing and CSV file I/O library import pandas

    0热度

    2回答

    我是新的Python和我使用pycharm.when我运行此代码在我的python空闲其运行,但是当我在我的pycharm中使用此代码它的显示错误 我的代码是 import sys import re for line_string in iter(sys.stdin.readline,''): line = line_string.rstrip() date = re

    0热度

    1回答

    我有大量文本文件,其大小合计为1 TB。比方说,我必须对每个文件执行字数统计并分别存储每个文件的结果。 Apache Hadoop是否是这种问题的正确解决方案?每个文件的大小是5 MB。我无法连接文件,因为我想单独查看每个文件的字数统计结果。我希望Hadoop做的是将每个文件作为输入提供给映射器,并在reducer中为其生成单独的输出文件。

    0热度

    1回答

    我有一个可以启动或停止的服务。每个操作都会生成一个包含时间戳和操作类型的记录。最终,我最终得到一系列时间戳记的操作记录。现在我想计算一天中服务的正常运行时间。这个想法很简单。对于每对启动/停止记录,计算时间跨度并进行总结。但是如果可能的话,我不知道如何使用Hive来实现它。我可以创建表来存储中间结果。这是主要的阻塞问题,还有一些其他小问题。例如,一些开始/停止对可能跨越一天。任何想法如何处理这个小

    1热度

    1回答

    我做了一个Iris dataset熊猫数据框,我想在其中添加4个额外的列。列的内容必须是SepalRatio,PetalRatio,SepalMultiplied,PetalMultiplied。我使用DataFrame的assign()函数来添加这四列,但DataFrame保持不变。 我的代码来添加列: iris.assign(SepalRatio = iris['SepalLengthCm']

    0热度

    1回答

    让假设我有一个数据结构如下: ID,特征1,特征2,特征3,结果 的所有功能都有历史数据。 但是预测需要在只有ID,特征1,特征2可用的阶段完成。 如何利用历史数据中的特征3来建立一种预测(预测结果)? 这个假设是否正确?还是有什么策略可以采用。 预先感谢您

    2热度

    1回答

    我正尝试为二项分类构建一个随机森林分类器。有人可以解释为什么我每次运行此程序时准确度得分都会有所变化分数在68% - 74%之间变化。此外,我尝试调整参数,但我无法获得超过74的准确度。对此的任何建议也将不胜感激。我尝试使用GridSearchCV,但我只管理了一个体面的3点增加。 #import libraries import numpy as np import pandas as pd

    4热度

    1回答

    我开始学习python,numpy和panda的,我有一个非常基本的问题,关于大小。 请参阅下一个代码块: 1.长度:6,D型细胞:int64类型 # create a Series from a dict pd.Series({key: value for key, value in zip('abcdef', range(6))}) 与 2.长度:6,D型细胞:INT32 # but w

    0热度

    1回答

    的比例蟒蛇的平等正样本测试 这种统计测试似乎R中非常简单>http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/R/R6_CategoricalDataAnalysis/R6_CategoricalDataAnalysis6.html 我看着SciPy的,它不`吨提供统计用于超过2个样本测试的工具 我正在寻找能够进行这种高级统计测试的python库。