我在网络上有一个html文件,它几乎每分钟更新一次表格中的新行。在任何时候,该文件都包含近15000行,我想创建一个包含表中所有数据的MySQL表,然后再从可用数据中计算出更多。从数千行的HTML表格中更新MySQL表格
该HTML表格包含,比如最近3天的行。我想将它们全部存储在我的mysql表中,并且每隔一小时左右更新一次表(可以通过cron来完成)?
对于连接到DB,我使用的是MySQLdb
,它工作正常。但是,我不确定最佳做法是什么。我可以使用bs4
刮取数据,使用MySQLdb
连接到表格。但我应该如何更新表格?我应该使用什么逻辑来刮取使用最少资源的页面?
我没有取得任何结果,只是刮和写。
任何指针,请?
你有写过任何代码吗?你的模式的例子也会有帮助! – jsalonen
我所有的代码是,刮取HTML表格行,并一次写入表格。但是,我真正担心的是更新表格和性能问题。 –
制作一个输出CSV的刮板。然后使用LOAD DATA INFILE或类似的方法将CSV加载到mysql中。另外,如果您在提交使用数据之前需要进一步过滤或监视事情,那么使用单独的表进行上传,然后执行INSERT/SELECT进行复制可能是明智的。 – Paul