分布式计算指的是什么

现在的位置: 首页 > 云计算 > 算法 > 正文

分布式计算指的是什么

2020年01月07日 ⁄ 云计算, 算法 ⁄ 共 1082字 ⁄ 字号小中大 ⁄ 评论关闭

　　在计算能力有限、存储成本偏高的情况下，就需要利用好计算机的资源，让它的计算能力发挥出最大的价值，所以在编程初期用指令直接操作硬件，例如汇编语言中常见的操纵寄存器，本质上都是为了减少数据传输的时间，充分利用CPU的计算能力，避免因为数据的长时间传输导致CPU进行过长的等待。

　　对计算机来讲，所谓的计算，不过是将存储在各个地方的数据通过数据总线进行传输，然后经过算术逻辑单元执行一系列预设好的规则，最终再将输出写入到某个位置。

分布式计算的到来

　　随着科技的发展，“数据存储”领域有了质和量的双向发展，除了稳定性、安全性的提升外，容量也呈指数级增长。因此可以在单机上直接构建整套服务，类似LAMP类似的这种一键搭建服务器的套装软件有了更多的应用场景。

　　然而随着业务的发展，另一个问题逐渐显现出来:虽然磁盘容量增加了，但是机器的访问速度并没有变快。

　　什么意思呢?举个例子:虽然20年前一个盘最大的存储空间只有100MB，但是读取完整磁盘只需要1分钟。如今虽然磁盘容量可以轻易的变成1TB、1PB，然而读取完整个盘的数据需要数小时之上。

　　这背后的问题在于技术发展的限制:磁头在磁道上移动速度的增速远远低于磁盘容量的增长。用通俗的话来说就是，仓库的面积已经从10平米扩展到100平米甚至到1000平米了，但是一个搬运工一天搬运货物的速度并没有显著的提升，所以虽然仓库的容量越来越大，但是搬完整个仓库的货物需要的时间却越来越多。

　　不过好在我们还有另一个好消息:带宽逐渐变得廉价。相比20年前，GB带宽的光纤已经非常普遍，网络能够实现一秒传输，数据量已经远远超过了整块盘的容量。于是一个大胆的想法被提出来了:既然读取完一个盘的数据需要几个小时，那把数据分成N份，分别放在不同的机器上并行读取，是不是一秒钟就读取完了?

　　采用网络并行的方式进行读取，将瓶颈从磁头移动转移到了网络，而要增加一条高速带宽，已经不需要付出多么大的代价。

Spark分布式计算模型

　　看起来似乎MRV2向前迈进了一大步，解决了不少问题，然而对于MRV2来说，依然存在它无法跨越的问题。首先为了兼容MR计算模型，它依然保留着两阶段计算的模型，因为对迭代计算基本乏力。MR模型就像一个工厂流水线要生产辣椒酱，要先把辣椒切碎，然后再汇集起来做成辣椒酱，固定的2步操作，如果想在切碎之前再做点啥，或者做成辣椒酱之后再贴个标签啥的，MR模型就支撑不了，因此“需要任意灵活的进行迭代”这一需求就出来了，这个就是Spark的特点。

　　结束语：以上就是关于分布式计算指的是什么的全部内容，更多内容请关注学步园。

【上篇】一起探知Spring MVC原理
【下篇】SQLServer 数据库故障修复顶级技巧之一

作者: admin

该日志由 admin 于4年前发表在云计算, 算法分类下，最后更新于 2020年01月07日.
转载请注明: 分布式计算指的是什么 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

分布式计算指的是什么

分布式计算的到来

Spark分布式计算模型

作者: admin

书签

最新文章New

本站推荐

返回首页