2017-10-20 25 views
0

我有一个包含12年的天气数据的数据集。前10年,数据每天记录。过去两年,现在每周都有记录。我想在Python Pandas中使用这些数据进行分析,但我对如何使用这些数据进行规范化丢失很少。数据周期 - 如何正常化?

我的想法

  1. 也转换前10年的数据为平均使用每周数据。可能工作,但翻译中丢失的数据太多了。
  2. 每周数据无法转换为每日数据。
  3. 忽略每日数据 - 这是一个巨大的损失
  4. 忽略每周数据 - 我失去了更新的数据。

对此的任何想法?

+0

这取决于:你想达到什么目的? –

+0

我将使用此数据来创建预测模型。 – Guru

+0

这实在不是一个编程问题。您应该在https://stats.stackexchange.com/ – DJK

回答

0

首先,您需要定义您需要的输出,然后,推导出如何处理输入以获得所需的输出。

关于前10年的日常数据,可能是每周只保留一天的可能选项。二次抽样并不总是意味着丢失信息,并不总是会改变最终结果。这取决于收集的数据的性质:数据变化的速度,测量误差,噪声。

变化速度:请参考Shannon,通过每周抽样一次而不是每天抽样一次来决定是否丢失信息。鉴于去年的2个,有些人决定每周只抽样一次,似乎表示他们已经观察到每天的数据变化不大,而且每周抽样都是足够的信息。这提供了一个提示,以便对最终数据集进行投票,该数据集将包括总计12年每周一个样本。除非他们为了成本原因减少抽样数据,在抽样的准确性和成本之间做出折衷。试着在文献中找到你的数据预计会发生什么变化。测量误差:如果测量误差包含一个随机为正数或负数的小ε,那么以7天的平均时间为“一周”数据会更好,因为这会增加取消该数据的机会变异。否则,只需要每周只进行一次抽样并投掷一周的其他日子即可。我会尝试这两种方法,平均和二次采样,看看输出是否有显着不同。