大数据量，海量数据处理方法总结（二）【转】

现在的位置: 首页 > 综合 > 正文

大数据量，海量数据处理方法总结（二）【转】

2012年11月24日 ⁄ 综合 ⁄ 共 2465字 ⁄ 字号小中大 ⁄ 评论关闭

发信人: appsony (懒羊羊), 信区: Algorithm
标题: 跟风发点补充的--大数据处理
发信站: 兵马俑BBS (Fri Nov 27 19:13:23 2009), 本站(bbs.xjtu.edu.cn)
用来应付面试题，祝大家找工作顺利。
1.完美哈希函数(Perfect Hash Function)
所谓完美哈希函数，就是指没有冲突的哈希函数，设定义域为X，值域为Y, n=|X|,m=|Y|，那么肯定有m>=n,如果对于不同的key1,key2属于X,有h(key1)!=h(key2)，那么称h为完美哈希函数，当m=n时，h称为最小完美哈希函数（这个时候就是一一映射了）。
相信大家在处理大规模字符串数据的时候，经常遇到这样的需求：首先需要把数据中出现的每个不同字符串分配一个唯一的整数ID，以后就用这个整数来代替这个字符串了。这个时候只要找到一个字符串的完美哈希函数，就可以解决了。
算法：假设有2个随机的哈希函数h1和h2,都将字符串映射到0..m-1域内，假设现在有一个g函数，使得 (g(h1(str_i))+g(h2(str_i))) % n = i,那么这个哈希函数就可以作为最小完美哈希函数了。由于h1和h2已知，现在的目标就是要找到g函数，建立一个m个顶点的图，然后添加n条边，第i条边为(h1(str_i),h2(str_i)),边权为i，可以证明：只要这个图是一个无环图，就一定存在满足条件的g函数：每次找一个没有分配g值的顶点v，令g[v]=0，然后从这个顶点开始深度优先遍历，给其它每个点分配相应的g值。
问题：算法最关键的问题是m值的选取，这个涉及到2方面的取舍：1.m值不能太大，否则g函数定义域太大，内存存不下 2.m值不能太小，否则生成的图有环的概率会非常大。
解决方法：设置更多的随机函数，比如h1,h2,h3,这个时候哈希函数就是(g(h1(str_i))+g(h2(str_i)+g(h3(str_i))) % n = i，可以证明，此时m值不需要很大，就能使生成的图无环的概率很大。
2.排序二叉树
排序二叉树是一个动态的数据结构，一般说的排序二叉树的用途就是动态的快速查找某一个数。但是如果我们在二叉树的结点上增加更多的信息，就能发挥更nb的作用了。
实例：有一个在线论坛，发帖量和回复量都非常大，帖子按照新发表或者新回复的时间来排序，要你设计一个算法，来快速的选出第n页的所有帖子（假设每页显示20个帖子）。
解决方法：这个就是要动态的查询一堆数里面第x大到第y大之间的所有数了，可以增加，删除，修改那些数。如果在普通的二叉排序树的结点上增加一个域，表示它的左子树中的结点数，那么就可以很好的解决这个问题了。
void search(tree t, int x, int y) {
    if(x > y) return;
    if(y <= t.left_num) {
        search(t.left_child, x, y);
        return;
    }
    if(x > t.left_num + 1) {
        search(t.right_child, x - t.left_num - 1, y - t.left_num - 1);
return;
    }
    search(t.left_child, x, t.left_num);
    选取t;
    search(t.right_child, 1, y - t.left_num - 1);
}
注意：上面说的二叉树在面对大规模数据时，是指的平衡二叉树。
扩展：陈启峰的SBT树，有兴趣的可以去研究下。
3.树状数组
假设有n个元素的数组a，每次可以在某个元素上执行加上一个数或者减去一个数的操作，然后需要能够快速的求出a[0]+a[1]+a[2]+...a[i]。这个可以用树状数组解决，每次更新或者询问的时间复杂度都是O(logn).
应用实例：qq拼音输入法引入了等级制度，用户会不定期的发送一个积分w到服务器，然后服务器把这个w累加到用户的总积分，并快速的返回这个用户的总积分在全球的排名。
解决方法：1. 由于这个问题实质还是动态的求某个数的排名（也就是求集合中比这个数小的数有多少个），可以利用上面平衡二叉树或者SBT树来解决，但是由于用户众多，树太大，只能保存在磁盘上。
   2.注意到这个问题有个显著的特点：用户量很大，但是用户的积分值不可能很大。假设用户的积分值最大为10^6，那么开一个10^6的数组a,a[i] 表示积分为i的用户有多少个，那么当需要给某个用户增加积分时，假设这个用户原始积分为o,那么首先使a[o]=a[o]-1,然后 a[o+w]=a[o+w]+1,询问积分为i的用户的排名，实质就是求a[0]+a[1]+a[2]+...a[w-1]，这个用上面说到的树状数组就可以了。时间空间效率都非常好。
4.索引
数据库里面的聚族索引和非聚族索引
这方面的问题挺重要的，但是了解的人不是很多。一般来说，聚族索引就是数据的存放顺序和聚族索引的顺序是一致的（有时数据会直接存放到聚族索引那个磁盘页中），而非聚族索引则不然，在非聚族索引中，需要存放一个磁盘地址指向真实的数据块，而且连续的非聚族索引会对应着不连续的数据块。由于数据只可能有一种存放顺序，所以一个数据表中只能有一个聚族索引，但是可以有多个非聚族索引。
查询效率区别：由于上面说到的区别，这2个索引在应对不同类别的查询时，效率是不同的。一般来说，聚族索引可以很高效的应对各种查询，但是非聚族索引基本只能高效的应对结果集是少量的查询，比如select * from A where id=1。对于范围类查询，比如select * from A where id>1 and id<1000,如果id字段是非聚族索引，那么效率远远没有聚族索引高，因为数据库每找到一个索引页后，还需要单独的一次io去取数据块，而且由于非聚族索引的特点，这些数据块是不连续的，导致磁头会不停的寻道，浪费很多io时间。

【上篇】Windows的dir之类shell命令的替代办法
【下篇】fatal error C1083: Cannot open precompiled header file: ‘Debug\xxoo.pch’: No such file or directory

作者: martyr

该日志由 martyr 于11年前发表在综合分类下，最后更新于 2012年11月24日.
转载请注明: 大数据量，海量数据处理方法总结（二）【转】 | 学步园 +复制链接

抱歉!评论已关闭.

学步园