2013-10-16 169 views
2

我有一个谷歌应用程序引擎应用程序必须处理大量的数据收集。我收集的数据每天大约有数百万条记录。正如我所看到的,有两种简单的方法来处理这个问题,以便能够分析数据:在GAE上保存数据:日志与数据存储

    1.使用记录器API生成应用程序引擎日志,然后尝试将它们加载到一个大的查询(或者更简单地导出为CSV并使用excel进行分析)。
    2.将数据保存在应用程序引擎数据存储区(ndb)中,然后稍后下载该数据/尝试加载到大查询。

有没有更好的方法来做到这一点?

谢谢!

回答

4

BigQuery有一个新的Streaming API,他们声称它是专为大批量实时数据收集而设计的。

实践建议:我们目前每天通过方法1记录20M +多事件记录,如上所述。它工作得很好,除非没有调用批量上传器(通常每5分钟),那么我们需要检测这个并重新运行导入器。 此外,我们目前正在迁移到新的Streaming API,但尚未投入生产,所以我不能说它有多可靠。

+0

我想我会给蒸汽API一个镜头。感谢您从个人经历中分享,帮助很大。 – orcaman