更新时间:2020/01/06
参考资料:Paper
2012年,Google统计了其数据中心下,CPU和内存的利用率仅有20%和40%;同年Amazon的数据中心中CPU的利用率仅为7%-17%,于是,工业和学术界开始着重研究如何提高resource efficiency in datacenters。
为什么资源效率如此低下?主要的障碍是co-located workloads。当我们将工作负载同时置于同一个硬件上运行时,不同的工作负载会互相造成干扰。这种影响严重干扰到了QoS服务,故如何在提供QoS服务的同时提高resource efficiency成为了难题。
当前的resource allocation strategy分静态与动态两种。其中广为使用的静态分配方法为将latency-critical (LC) applications和co-locating batch-processing applications分到不同的CPU cycles进行处理,如果机器出现性能瓶颈,批处理应用会被延后或者取消以保证LC应用的正常运行。在这个过程中,资源被重新调度,意味着更多的时间开销。另外的一些研究着重于动态schedule,静态和动态schedule是可以同时运用的。
在这篇paper中,我们想搞清楚在经过多年的研究后,目前的resource efficiency是怎样的,其瓶颈是否发生了改变,原因是什么?
本篇中我们发现了三个原因: