从两个文件(各含50亿个url)中找出共同的url

现在的位置: 首页 > 综合 > 正文

从两个文件(各含50亿个url)中找出共同的url

2013年03月18日 ⁄ 综合 ⁄ 共 598字 ⁄ 字号小中大 ⁄ 评论关闭

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

思路：

可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可。

原文链接：http://hi.baidu.com/mianshiti/blog/item/0e23132978308f335343c18b.html

【上篇】hfile的操作
【下篇】数据结构–循环队列

作者: dietitian

该日志由 dietitian 于11年前发表在综合分类下，最后更新于 2013年03月18日.
转载请注明: 从两个文件(各含50亿个url)中找出共同的url | 学步园 +复制链接

抱歉!评论已关闭.

学步园

从两个文件(各含50亿个url)中找出共同的url

作者: dietitian

书签

最新文章New

本站推荐

返回首页