我不从Google File Systems Paper为什么小文件会在Google文件系统中创建热点?
一个小文件由少数块,也许只是一个明白这一点。如果许多客户端 正在访问相同的文件,则存储这些块的大块服务器可能会成为热点。
小文件有什么区别?许多客户访问的大文件是否可能导致问题?
我想过/阅读以下内容: -
- 我认为(纠正我,如果我错了)是大文件的数据块存储在不同的大块服务器从而分散负载。在这种情况下,1000个客户端访问每个块服务器的文件的1/100。所以每个块服务器不可避免地最终得到1000个请求。 (与访问单个小文件的1000个客户端不同,服务器获取1000个小文件请求或1000个更大文件请求)
- 我读了一些关于稀疏文件的内容。根据纸张的小文件填满一个或多个块。所以根据我的理解,小文件不会被重建,因此我已经将这个作为热点的可能原因予以消除。
“在这种情况下,1000个客户端访问每个块服务器的1/100的文件,因此每个块服务器不可避免地最终获得1000个请求。”你能更多地在这里扩展你的想法吗?如果客户端访问文件的1/100,则每个客户端只会联系百分之一的大块服务器。这篇论文的想法是,对于大文件,访问模式实际上是跨块服务器的随机分布*,但不是一次全部*。 – GManNickG
@GManNickG一个大文件存储在100个块服务器中。 1000个客户端需要该特定文件。他们最终都将需要来自100个大块服务器的数据。所以每个chunkserver都会最终为1000个客户提供服务。即使有一个随机分布,每个文件所做的单个请求都不会等于一个小文件产生的负载吗? 更重要的是大文件的部分存储在不同的块服务器? –
Gotcha。在你的场景中,所有的块服务器最终都会服务1000次,是的,但是瞬时负载会更低。 1000个客户端同时向单个服务器请求数据是一个热点,如果客户端不仅仅是同时连接每个数据块服务器,而是超过100个数据块服务器的1000个客户端意味着您的任何服务器上的即时负载更低。然而,我相信这篇论文的重点是,在实际应用中,并不是所有的客户端都会读完整个文件,在这种情况下,chunkserver只处理(例如)一个请求。 – GManNickG