现在的位置: 首页 > 综合 > 正文

大量的URL 字符串,如何从中去除重复的,优化时间空间复杂度

2017年10月28日 ⁄ 综合 ⁄ 共 168字 ⁄ 字号 评论关闭

1、内存够用,将URL存入hash链表,每个URL读入到hash链表中,遇到重复的就舍弃,否则加入到链表里面,最后遍历得到所有不重复的URL。

2、如果受内存限制,构造一个hash函数,把url适当散列到若干个比如1000个小文件中,然后在每个小文件中去除重复的url,再把他们合并。

原理是相同的url,hash之后的散列值仍然是相同的。

抱歉!评论已关闭.