现在的位置: 首页 > 综合 > 正文

边读边捋【july的】海量数据处理面试题

2018年04月29日 ⁄ 综合 ⁄ 共 1609字 ⁄ 字号 评论关闭

1、寻找 TOP IP

海量日志数据,提取出某日访问百度次数最多的那个 IP。

个人捋之:海量,直接处理往往不中。

1)设计一个hash函数,其功能为将任意IP地址映射为一个数,再将该数对某个不太大的数取余,使得任意IP -> 一个不太大的数(比如1000)。这样就保证能实时地将现有日志中所有的IP分布到1000个桶里,我们每次只将一个桶提到内存里然后处理;

2)逐个将桶提到内存里,按value(次数)sort,取最大<key(IP), value(次数)>对,存下;

3)对这1000个键值对按次数排序,再取最大次数,得到对应键值即为所求。


2、搜索引擎会通过日志文件把用户每次检索所使用的所有查询串都记录下来,每个查询串的长度为
1-255 字节。假设目前有 1000 万个查询记录(但因为这些查询串的重复度比较高,所以虽然总数是 1000
万,但如果除去重复后,不超过 300 万个查询字符串),请统计其中最热门的 10 个查询串,要求使用的
内存不能超过 1G。

个人捋之:

1)1000万 * 255 byte = 2.5G > 1G,so 全部读入内存处理不成。但是题目里提到很多重复,去重后大概需要800M,自然而然想到使用STL中的map或者hash_map或者trie树起一个过滤作用,从文件中逐条读入记录,加入到map中。

2)排序,不过既然是top k 的题,自然想到用堆排。


这题数据量比较坑爹,不大不小。如july所说,如果是1亿个查询记录呢?

个人捋之:

1)25G >> 1G。考虑将这个大文件拆分成若干个能处理的小文件,比如说100个。拆分的方式不妨采用hash映射的方式:从原文件读一行,fgets(oneline, input.txt);再用hash函数算个hash值,long long hashValue = hashFunc(oneline);再将该值对100取余,hashValue %= 100;将其写入hashValue对应的那个桶对应的那个小文件中;

之后两种方法:

1>对这100个小文件,各自map去重,然后取top10;再对所有的top10 取 top10;

2>对这100个小文件,使用外排序,得top10;


3、海量数据分布在 100 台电脑中,请想个办法高效统计出这批数据的 TOP 10。
个人捋之:比较简单赶脚,100台电脑各自取top10,然后将这100个排完序的结果传给控制机,外排序,再取topk就哦了。
哦豁:少考虑了一点,如果这些分布在不同电脑中的数据有相同的怎么办?可以先reduce起来,hash映射一下,再map下去,确保每台电脑上的数据是唯一的,再像之前的处理就可以了。

4、有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的 query 都可能重
复。要求你按照 query 的频度排序。
个人捋之:
1)依次读入这10个文件,通过hash映射为100个hash桶,每个桶写成一个文件。即得到100个文件,每个100Mb。且各个文件之间没有重复query;
2)但此时每个文件内部还是存在相同的query,可以用trie树或者map去统计每个query的次数信息。
3)这100个文件各自排序,然后通过外排序归并。由于100M的query,仍然数量很大,可以考虑每个100M文件先拆分成更小粒度的文件,先进行一层归并。

5、给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,请找出 a、b 文件共
同的 url。
个人捋之:
1)100个url 6.4K,10w个url 6.4M,1亿的话,6.4G,50亿,320G的大小...
2)bloom过滤?m个bit,t 个hash函数,将a文件中每个url映射为 t 个hashValue,并将对应的位数置为1。再在b文件中每个url用同样的t个hash函数映射t个hashValue,如果对应的位数均为1,说明该url在a文件和b文件中共现过。问题在于m和t分别怎么设呢?木有经验。

【上篇】
【下篇】

抱歉!评论已关闭.