Google Caffeine: What it really is

现在的位置: 首页 > 综合 > 正文

Google Caffeine: What it really is

2018年02月18日 ⁄ 综合 ⁄ 共 2424字 ⁄ 字号小中大 ⁄ 评论关闭

Google推出其称作Caffeine的沙盒，但这并不仅仅是下一代搜索引擎的基础。她至少在未来几年中将作为Google所有在线应用的的软件体系的一部分。

在The Reg的访谈中，Matt Cutts证实，Google的Caffeine基于对其原有GFS的全面修改。Google内部称之为GFS2。

Matt Cutts说，“Caffeine包含了许多（新）技术，而且下一代存储是Caffeine的基础之一。Caffeine也采用了所谓的GFS2。”

当问到Caffeine是否包含对MapReduce（Google的分布式数据分析平台）或BigTable（Google的分布式实时数据库）的改进时，Cutts拒绝发表评论。但他强调，对于Caffeine，Google正在测试可以应用到其整个在线基础设施的多种平台，而并不仅仅局限于搜索引擎。

“我没有提到下一代的mapreduce和下一代的BigTable。因为我们开发下一代的GFS并不意味着我们也要开发其他的平台。但是可以肯定的是我们在测试一些新的组件，以备将来之用。”

Cutts提到Caffeine和一些新的平台将在Google上退出。“必然会有新的工具。”

Matt Cutts监控google的垃圾邮件，他还是PageRank方面的专家，经常评论google搜索算法的优缺点。因此，在周一下午，Cutts发了一个帖子，披露了一个关于“开发谷歌搜索下一代架构”的“秘密计划”，许多人认为这是搜索结果排名算法的修改。但是Cutts指出这只是升级搜索引擎后台的软件。

他的博文中指出，“新的架构是在Google搜索引擎基础上的，这意味着大多数用户不会感觉到搜索结果的差异。”

据Cutts所说，Caffeine包括自上而下重写的Google索引系统--比如，建立所有网站数据库的系统，以及描述它们的所有元数据。它并不是致力于改变如何使用index产生搜索结果。

Cutts说，“Caffeine是一个重构的索引系统，绝不仅是简单的修改。它更类似于重写。它拥有更大的灵活性，更大的功效，索引更多的文档，更快的索引速度（索引速度是指建立索引并使之可搜索到的速度）。”

建立索引是一项数字计算运动--史诗般的数字计算运动。对于这项任务，Google使用自主的私有分布式架构管理海量的商用servers。这意味着GFS存储数据，mapreduce处理数据。

没错，Cutts贬低了Google彻底检修MapReduce的观点。但是就像Yahoo，Facebook和其他促进hadoop发展的公司一样，Google从未停止对其MapReduce系统的改进。

“MapReduce体现的观点是非常可靠地”，Cutts告诉我们，“而且这种抽象概念工作得很好。你可以将MapReduce看作一种抽象思维--把任务分成块，每块计算的输出再组合起来。这更多的是一种抽象，具体的实现可以各种各样。”

Cutts坚信Caffeine会采用GFS2。正如本周早些时候提到的，GFS2是开始于10年前的GFS的重要分支，而且目前GFS2不仅用于搜索也用于Google所有的在线服务。

Google的哲学是建立一个分布式架构，将其海量的数据中心视作一个虚拟机。

“数据中心只是原子”，Google的工程架构高级经理 Vijay Gill 最近说。“任何人都可以把这些原子凑到一起并创建一个巨大的架构。问题是：如何让应用使用这个架构？如何分布它？如何优化它？这才是困难所在，完成这项工作需要超强的激情和能力。”

“我们有一组基元来处理那些原子集合，并从中把整个架构抽象为一组服务--比如GFS，BigTable，MapReduce。”

Caffeine是关于搜索索引的。但是GFS2是专门为Gmail，YouTube和其他一些直接向终端用户提供服务（不同于索引系统）的应用而设计的。这些应用要求超低延迟，这不是原来的GFS的设计目的。

在GFS中，一个master node负责将数据分发到一系列分布的chunkservers上。对于要求低延迟的应用，单个master node是个问题（单点失败）。

“GFS亟待解决的一个问题就是单个master问题”，GFS的前任技术leader Sean Quinlan说过。“单点失败对于面向批处理的应用来说可能并非灾难，但是对于要求低延迟的应用来书是不可接受的，比如视频服务。”

GFS2采用分布式的slaves，也采用分布式的masters。

目前，Caffeine已采用这种设计，未来所有的应用都将采用这种设计。Cutts确认Caffeine运行在一个单独的Google数据中心上--这貌似意味着GFS2仅仅部署在那一个设备上。Reg读者们都惊奇Google那些悬而未决的升级，其中一个评论家期望Google给她的工程师们装备了“增强内衣”。

但是Cutts不重视这些风险和困难，他认为迁移不过是每次让一个数据中心离线而已。他说“在任何时候，我们都可以把一个数据中心拿出循环，如果我们想换出电源组件或不同硬件--或者改变软件，因此你可以想象在某一个数据中心中建立索引然后复制到所有其他数据中心中。”

“如果你想部署新的软件，你可以从传统循环（traditional rotation）取出其中一个数据中心。你可以向它发送任何级别的流量。”

Vijay Gill还提到Google也开发了一些神奇的软件层用于自动的迁移进出数据中心的负载。当详细询问相关信息是，由于有Google的PR人员在，Cutts给了一个圆滑的回答，“我认为我们没有发相关的paper。”公司向来“害羞”。

同样，Cutts也没有透露更多的关于Caffeine涉及的工具的信息。可参考这里Google's Caffeine splutters off interwebs。但是可以可定的是这个项目不仅仅是简单的升级。

原文链接：Google Caffeine: What it really is