现在的位置: 首页 > 综合 > 正文

对账算法改进

2012年02月21日 ⁄ 综合 ⁄ 共 260字 ⁄ 字号 评论关闭

因为业务量的增长,导致对账时两边的数据占用了1.5g内存,考虑到业务的增长量,打算对原来的一整天数据全部读入后在执行对账的方式做些修改,修改为类似流的join方式,具体方式见图:

 

如果A的输出流与B的输出流的顺序是基本一致的,那么就可以获得一个比较好的hash join效果,而对少数N代(连续N次未能匹配)未匹配数据做一些补偿,就可以完成全部匹配工作了

但是,在A的输出流和B的输出流的顺序差异很大,可能造成绝大部分数据未能匹配,那么,在有补偿的情况下,整个方式就退化成根据A left join B,再根据B left join A

抱歉!评论已关闭.