38 百度面试天平，url等 | 学步园

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

38 百度面试天平，url等

2018年01月20日 ⁄ 综合 ⁄ 共 763字 ⁄ 字号小中大 ⁄ 评论关闭

/*
百度面试：
1.用天平（只能比较，不能称重）从一堆小球中找出其中唯一一个较轻的，使用 x  次天平，
最多可以从 y  个小球中找出较轻的那个，求 y  与 x  的关系式。

2.有一个很大很大的输入流，大到没有存储器可以将其存储下来，
而且只输入一次，如何从这个输入流中随机取得 m  个记录。

3.大量的 URL  字符串，如何从中去除重复的，优化时间空间复杂度
*/ 

/*
1.记住是唯一较轻的，只有一个
每次分三份，a，b，c
称ab；如果a=b,则轻的在c中，否则在ab小的那堆中
所以y=3^x 


2.
所有的个数N，N<m，保存所以的，
N>m: 
用一个N，rand的随机数，R=rand（N),如果R在[0,m]区间，置换，否则丢弃不管 ； 

或者 
用大小为m的数组arr[0:m-1]来保存随机抽取的元素 
arr[0:m-1]逐步初始化为输入流的前m个元素的一个随机排列。
对于输入流中的第k (k>m)个元素，后面元素，随机生成一个[0,k-1]区间内的整数i，
如果此随机整数i小于等于m，那么就用第k个元素覆盖掉arr[i-1]，
否则，丢弃第k个元素。


3.用hash
1. 内存够用，非常大，将URL存入hash链表，每个URL读入到hash链表中，遇到重复的就舍弃，
否则加入到链表里面，最后遍历得到所有不重复的URL。
空间复杂度M，时间复杂度为O(N+N/M)，M为不重复的URL，N为总URL数
 

2. 为了解决内存可能不足的问题，需要把hash链表变化成普通的hash表，
每个hash表元素指向一个文件，
这个文件记录了所有该hash值对应的无重复的URL，
那么在加入URL的时候就遍历对应文件中的URL，没有重复则加入到文件中。
但是每次都要读写文件，消耗的时间应该是上一种方式的三倍（依赖于io速度），
而对内存的要求比较小。一个改进是加入URL的时候进行排序，这样能减少比对的次数。 
*/

返回

【上篇】39 二叉树中两个节点最大距离
【下篇】37 最长字符串链接

作者: waterlxh

该日志由 waterlxh 于6年前发表在综合分类下，最后更新于 2018年01月20日.
转载请注明: 38 百度面试天平，url等 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

Copyright © 2013-2018 学步园保留所有权利.
软文销售 QQ客服：2265327166

点击这里给我发消息

（其他合作也可洽谈）