现在的位置: 首页 > 云计算 > 算法 > 正文

分布式计算指的是什么

2020年01月07日 云计算, 算法 ⁄ 共 1082字 ⁄ 字号 评论关闭

  在计算能力有限、存储成本偏高的情况下,就需要利用好计算机的资源,让它的计算能力发挥出最大的价值,所以在编程初期用指令直接操作硬件,例如汇编语言中常见的操纵寄存器,本质上都是为了减少数据传输的时间,充分利用CPU的计算能力,避免因为数据的长时间传输导致CPU进行过长的等待。

  对计算机来讲,所谓的计算,不过是将存储在各个地方的数据通过数据总线进行传输,然后经过算术逻辑单元执行一系列预设好的规则,最终再将输出写入到某个位置。

分布式计算的到来

  随着科技的发展,“数据存储”领域有了质和量的双向发展,除了稳定性、安全性的提升外,容量也呈指数级增长。因此可以在单机上直接构建整套服务,类似LAMP类似的这种一键搭建服务器的套装软件有了更多的应用场景。

  然而随着业务的发展,另一个问题逐渐显现出来:虽然磁盘容量增加了,但是机器的访问速度并没有变快。

  什么意思呢?举个例子:虽然20年前一个盘最大的存储空间只有100MB,但是读取完整磁盘只需要1分钟。如今虽然磁盘容量可以轻易的变成1TB、1PB,然而读取完整个盘的数据需要数小时之上。

  这背后的问题在于技术发展的限制:磁头在磁道上移动速度的增速远远低于磁盘容量的增长。用通俗的话来说就是,仓库的面积已经从10平米扩展到100平米甚至到1000平米了,但是一个搬运工一天搬运货物的速度并没有显著的提升,所以虽然仓库的容量越来越大,但是搬完整个仓库的货物需要的时间却越来越多。

  不过好在我们还有另一个好消息:带宽逐渐变得廉价。相比20年前,GB带宽的光纤已经非常普遍,网络能够实现一秒传输,数据量已经远远超过了整块盘的容量。于是一个大胆的想法被提出来了:既然读取完一个盘的数据需要几个小时,那把数据分成N份,分别放在不同的机器上并行读取,是不是一秒钟就读取完了?

  采用网络并行的方式进行读取,将瓶颈从磁头移动转移到了网络,而要增加一条高速带宽,已经不需要付出多么大的代价。

Spark分布式计算模型

  看起来似乎MRV2向前迈进了一大步,解决了不少问题,然而对于MRV2来说,依然存在它无法跨越的问题。首先为了兼容MR计算模型,它依然保留着两阶段计算的模型,因为对迭代计算基本乏力。MR模型就像一个工厂流水线要生产辣椒酱,要先把辣椒切碎,然后再汇集起来做成辣椒酱,固定的2步操作,如果想在切碎之前再做点啥,或者做成辣椒酱之后再贴个标签啥的,MR模型就支撑不了,因此“需要任意灵活的进行迭代”这一需求就出来了,这个就是Spark的特点。

  结束语:以上就是关于分布式计算指的是什么的全部内容,更多内容请关注学步园。

抱歉!评论已关闭.