数据周期 - 如何正常化？

我有一个包含12年的天气数据的数据集。前10年，数据每天记录。过去两年，现在每周都有记录。我想在Python Pandas中使用这些数据进行分析，但我对如何使用这些数据进行规范化丢失很少。数据周期 - 如何正常化？

我的想法

也转换前10年的数据为平均使用每周数据。可能工作，但翻译中丢失的数据太多了。
每周数据无法转换为每日数据。
忽略每日数据 - 这是一个巨大的损失
忽略每周数据 - 我失去了更新的数据。

对此的任何想法？

来源

2017-10-20 Guru

这取决于：你想达到什么目的？ –

我将使用此数据来创建预测模型。 – Guru

这实在不是一个编程问题。您应该在https://stats.stackexchange.com/ – DJK

首先，您需要定义您需要的输出，然后，推导出如何处理输入以获得所需的输出。

关于前10年的日常数据，可能是每周只保留一天的可能选项。二次抽样并不总是意味着丢失信息，并不总是会改变最终结果。这取决于收集的数据的性质：数据变化的速度，测量误差，噪声。

变化速度：请参考Shannon，通过每周抽样一次而不是每天抽样一次来决定是否丢失信息。鉴于去年的2个，有些人决定每周只抽样一次，似乎表示他们已经观察到每天的数据变化不大，而且每周抽样都是足够的信息。这提供了一个提示，以便对最终数据集进行投票，该数据集将包括总计12年每周一个样本。除非他们为了成本原因减少抽样数据，在抽样的准确性和成本之间做出折衷。试着在文献中找到你的数据预计会发生什么变化。测量误差：如果测量误差包含一个随机为正数或负数的小ε，那么以7天的平均时间为“一周”数据会更好，因为这会增加取消该数据的机会变异。否则，只需要每周只进行一次抽样并投掷一周的其他日子即可。我会尝试这两种方法，平均和二次采样，看看输出是否有显着不同。

来源

2017-10-20 03:48:40

数据周期 - 如何正常化？

回答

相关问题