data-analysis

1热度

1回答

一个数据帧我有这样一个数据帧有重复的值， df, Name City 0 sri chennai 1 pedhci pune 2 bahra pune 有在城市列重复。我想： df["City"].drop_duplicates() ，但它仅给出特定列。我的期望输出应该是 output_df Name City 0 s

-3热度

1回答

的java - K-means聚类

我有以下输入整数向量（例如）： 4 138 233 461 610 621 669 742 814 827 89 138 334 656 697 810 138 138 196 738 659 738 4 461 138 337 756 810 8 138 196 337 468 663 664 756 809 810 它们都包含整数值[1-850]和都存储在CSV文件。我想根

0热度

2回答

R：将列推入data.frame函数

这可能会是一个非常愚蠢的问题，但我们现在就去。虚拟数据集： id x y t 1 10 20 8 1 11 14 40 2 19 16 18 2 14 54 15 2 10 27 29 2 15 21 5 3 40 18 19 3 23 13 30 使用闪亮我要绘制x和y时，他们的时间（t）中，我已经建在

0热度

1回答

在python

我有两个dataframes concatinating 2个DataFrames没有为NaN， df_temp, Age Name city 0 1 Pechi checnnai 1 2 Sri pune df_po po 0 er 1 ty 我试图pd.concat（[df_temp，df_po]） df_temp=p

0热度

1回答

如何将python数据分析代码分解为模块？

我是一名商业智能分析师，开始使用python进行数据分析。我正处于为内部使用（营销分析师）编码营销分析应用程序的初期阶段，无需使用MS Excel进行计算。的主要目标是：提示，要求选择原始文件读CSV/XLSX数据清理（删除空值，下降总行，格式化数字和日期等）转换（创建像每点击成本等指标 impressi插件，每引线，广告支出的回报，像 Facebook的每个频道，YouTube，谷歌

-1热度

2回答

比较两个数据框列，以检查他们是否有在python

我有两个dataframes相同的值， new1. Name city 0 sri won chn 1 pechi won pune 2 Ram won mum 0 pec won kerala new3 req 0 pec 1 mut 我试过， mask=new1.Name.str.contains("|".join(new3.req.values.t

0热度

1回答

numpy np.newaxis

saleprice_scaled =/ StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]); 任何人都可以请解释这条线发生了什么？为什么在这里使用newaxis？虽然我知道使用newaxis，但我无法弄清楚它在这种特殊情况下的使用。由于事先

0热度

1回答

删除Jupyter笔记本中涉及交互式小部件的同一单元格中的过去Matplotlib图

这只是一个小问题，一直在困扰我一段时间。我有一个由所有连续变量组成的熊猫数据框。我想为任何选择的变量对绘制一个散点图（使用matplotlib），并使用Jupyter中的交互式小部件。假设数据有3个数字列：'a'，'b'和'c'。到目前为止，我有代码的这些行： def g(x,y): plt.scatter(x, y) interactive_plot = interactive(

1热度

1回答

如何将OHLCV数据重新采样为5分钟？

我有这样一组数据 2016-08-09 12:39:00,536.7841,536.7849,536.6141,536.7849,0.656 2016-08-09 12:40:00,536.6749,536.6749,536.6749,536.6749,0.2642 2016-08-09 12:41:00,535.84,535.84,535.615,535.615,0.348 2016-08

2热度

2回答

具有块大小选项的pandas.read_csv函数的奇怪索引机制

由于数据量巨大，我们使用熊猫来处理数据，但出现了一个非常奇怪的现象。伪代码如下所示： reader = pd.read_csv(IN_FILE, chunksize = 1000, engine='c') for chunk in reader: result = [] for line in chunk.tolist(): temp = complicated_