0
好的,也许这个问题很奇怪,但我打算只为立陶宛语的网页编写爬网程序,而且我试图估计有多少数据那将是(因此需要多长时间)。也许别人有类似的经历?在纯html中有多少数据会用于小欧洲国家
好的,也许这个问题很奇怪,但我打算只为立陶宛语的网页编写爬网程序,而且我试图估计有多少数据那将是(因此需要多长时间)。也许别人有类似的经历?在纯html中有多少数据会用于小欧洲国家
一个非常粗略的估计可以通过看一些统计数据进行:
所以,如果你给每一个国家在世界互联网上的网页(这不是一个正确的假设,但它应该是一个有用的一个)的比例所有权,那么1万页0.04%,为4亿在立陶宛的页面。
4亿* 320KB = 119.20929兆兆字节
如果压缩的页面和你承担最好的情况下的4:1的压缩,然后你看约30万亿字节。我仍然会说你需要120兆兆字节才是安全的。如果您假设目前每TB的价格大约为100美元,那么您只需在硬盘驱动器上存储3,000到12,000美元即可存储此数据。
现在,大的问题是:你实际上是否需要所有这些数据?
感谢您的估计和链接。如果真的是这样,我会安排一些较小的子集:) – ren 2013-03-20 16:13:03