Storm常见模式——求TOP N

现在的位置: 首页 > 综合 > 正文

Storm常见模式——求TOP N

2013年03月04日 ⁄ 综合 ⁄ 共 716字 ⁄ 字号小中大 ⁄ 评论关闭

Storm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算，它的特点是持续的在内存中按照某个统计指标（如出现次数）计算TOP N，然后每隔一定时间间隔输出实时计算后的TOP N结果。

流式数据的TOP N计算的应用场景很多，例如计算twitter上最近一段时间内的热门话题、热门点击图片等等。

下面结合Storm-Starter中的例子，介绍一种可以很容易进行扩展的实现方法：首先，在多台机器上并行的运行多个Bolt，每个Bolt负责一部分数据的TOP N计算，然后再有一个全局的Bolt来合并这些机器上计算出来的TOP N结果，合并后得到最终全局的TOP N结果。

该部分示例代码的入口是RollingTopWords类，用于计算文档中出现次数最多的N个单词。首先看一下这个Topology结构：

Topology构建的代码如下：

        TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout("word", new TestWordSpout(), 5);
        builder.setBolt("count", new RollingCountObjects(60, 10), 4)
                 .fieldsGrouping("word", new Fields("word"));
        builder.setBolt("rank", new RankObjects(TOP_N), 4)
                 .fieldsGrouping("count", new Fields("obj"));
        builder.setBolt("merge", new MergeObjects(TOP_N))
                 .globalGrouping("rank");

【上篇】SQL2005转2000 补充
【下篇】Jeff Bezos: 后电子产品时代是软件和服务的天下

作者: hellfire

该日志由 hellfire 于11年前发表在综合分类下，最后更新于 2013年03月04日.
转载请注明: Storm常见模式——求TOP N | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

（其他合作也可洽谈）

必威体育

必威电竞

学步园

Storm常见模式——求TOP N

作者: hellfire

书签

最新文章New

本站推荐

返回首页