2015-04-27 62 views
-1

我已经编写了一个Python脚本,用于擦除我们大学的HTML页面,以获取所需的所有度数信息。它会生成所有数据的.csv文件。然后使用我们的API中的方法将.csv文件中的数据上传到数据存储区。使用Python脚本自动将实体存储在GAE云数据存储中

这是一个特别沉闷的过程。由于我们只能提出一分钟以内的请求,因此我们需要将.csv文件拆分为许多不同的位。显然,这并不酷。

我们最初设想了一个数据库,它将采用我们的python脚本并每年更新/填充所有新的学位信息。与Java编码的GAE云数据存储一起运行的python脚本。

可以做到这一点吗?我们可以让数据库自行更新吗?

如果是这样,我们可以手动和自动地实现它吗?

感谢您的阅读!

+0

看看有10分钟超时或后端模块具有更长时间限制的任务。 –

回答

1

因此,基本上,您希望使用一个Python脚本创建您创建的csv文件,然后使用另一个程序解析该文件,并将该数据上传到数据存储区,以便其他物件可以访问该数据。

有几个选项,我看到:

  1. 使用拉入队列。设置一个Appengine项目,该项目托管一个RESTful服务,您当前的Python脚本可以将CSV文件上传到该应用程序,并且应用程序将其处理/放入数据存储区。

  2. 使用cron作业构建应用程序,检查新CSV文件的特定位置,使原始Python脚本(或手动)将CSV文件放入该特定文件夹并使用该应用程序。该应用程序也可以有一个页面,您可以手动上传CSV文件,这会给你自动和手动选项。

每个人的具体细节以及如何构建它们将由您自行决定。

+0

因此,据您所见,我们无法让数据库自动执行此操作? – MiKenning

+0

我认为你必须通过一个appengine项目来处理数据存储。如果你希望数据库自动同步数据存储,我上面描述的第一个选项将是最好的 - 让项目公开一些你的数据库可以挂接到的API或其他影响的API。再次,我不是专家,但这就是我的建议。 顺便说一句,在将数据放入数据存储区后,您将如何处理数据?你正在处理它还是仅仅使用它来向最终用户展示/运行查询? – AndrewF