2012-05-30 26 views
0

我目前正在尝试编写一个小型应用程序,它基本上会将另一个网站(我的学校的成绩门户)的信息寄生虫寄生虫,基本上是为了使其他网站上的内容更有用。我现在有一个用Ruby和Mechanize写成的概念验证。从刮板程序写入Web应用程序的注意事项

但是,我试图弄清楚从哪里出发。运行概念验证需要花费很长时间,有时需要一分钟时间才能完成登录。由于网站的编写方式(旧的),我不认为我可以更快地完成登录。

当我试图将这个概念验证转化为一个完整的应用时,我应该关注什么?

+1

“当我试图将这个概念验证转化为一个全面的应用时,我应该关注什么?”你会为你的学校带来多少成功。在一个有用的注意,虽然:你可能想考虑在幕后进行刮擦,然后只有显示数据给用户,而不是让用户等待(假设它不是永久需要的实际登录)。 – Corbin

+0

是的..缓存结果是解决缓慢问题的方法。运行一个Rake任务或类似的技巧,每小时或每隔一小段时间刮一次页面(不要过于频繁地破坏网站),然后始终运行前端关闭此刮取的数据。 – Casper

回答

0

当你在刮,你基本上在另一个孩子的房子玩。他们可以(也将会)在闲暇时改变事物。您将需要广泛的错误检查。我建议你在发布数据之前先将数据保存到临时环境中,并确保你的用户知道他们可能会间歇性地获取数据的延迟,同时你在站点更改之后疯狂地尝试恢复你的scraping例程。

相关问题