MapReduce:Google的人间大炮

现在的位置: 首页 > 综合 > 正文

MapReduce:Google的人间大炮

2013年03月12日 ⁄ 综合 ⁄ 共 1214字 ⁄ 字号小中大 ⁄ 评论关闭

	网络上关于MapReduce的介绍，最权威的就是　Jeffrey Dean 
和 Sanjay Ghemawat　的那篇：MapReduce: Simpli ed Data Processing on Large Clusters
您可以到　labs.google.com 上下载该文。

对goole这样需要分析处理海量数据的公司来说，普通的编程方法已经不够用了。于是 google开发了MapReduce。简单来说，语法上MapReduce就像Lisp,使用MapReduce模型你可以指定一个Map方法来处理诸如key/value这样的数据，并生成中间形式的　key/value 对，然后再使用 Reduce方法合并所有相同key的中间　key/value　对生成最终结果。google的MapReduce是运行在数千台机器上的处理TB数据的编程工具。

据说在MapReduce这样的编程模型下，程序可以自动的在集群环境中按照并行方式分布执行。就如同java程序员可以不考虑内存泄露一样，MapReduce程序员也不许要关心海量数据如何被分配到多台机器上，不需要考虑如果参加计算的机器出现故障应该怎么办，不需要考虑这些机器间如何协作共同完成工作的。

举个例子吧：最近我在做贝叶斯论坛垃圾帖屏蔽演示系统 Beta 1 的时候，就需要计算样本数据中每个词语出现的频率。我的计算步骤就是先分词，然后用hash表处理。要是碰到TB的数据，我的赛扬CPU可是吃不消。那么放在MapReduce下面会是什么样子呢？

    下面是一个伪实现：
第一步：
    map(String key, String value):
    // key: 文档名称
    // value: 文档内容
    for each word w in value:
        EmitIntermediate(w, "1");
第二步：
    reduce(String key, Iterator values):
    // key: 一个词
    // values: 关于这个词的频率数据
    int result = 0;
        for each v in values:
            result += ParseInt(v);
        Emit(AsString(result));

如果你看过向量空间模型就知道，这就是计算　TF 和　IDF 的语义实现。

Google的WebReduce　包是用C++实现的，在MapReduce: Simpli ed Data Processing on Large Clusters　一文中还包含了一段真实的WebReduce的代码，可以看看，饱饱眼福。

sogou.com 搜索引擎目前的规模:

参数1、每两周代码效率就提高10倍
参数2、数次优化后还能占满4G内存的程序
参数3、操控50台服务器200G内存10T硬盘，每分钟上万个查询
参数4、由2万行配置文件控制，并且用户一次点击就打印出100M日志

【上篇】什么是JavaFX – JavaFX 入门
【下篇】歌曲：后来的我们歌手：品冠

作者: boxcs

该日志由 boxcs 于11年前发表在综合分类下，最后更新于 2013年03月12日.
转载请注明: MapReduce:Google的人间大炮 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

MapReduce:Google的人间大炮

作者: boxcs

书签

最新文章New

本站推荐

返回首页