Civilization Museum
The Dark Forest
目录
0%
有两个文件
从两个文件50亿数据中找出相同的URL
方案1:将两个文件分别映射到10万个小文件中
方案2:如果允许有一定的错误率,可以使用Bloom filter
提取出某日访问百度次数最多的那个IP
统计最热门的10个查询串
题解
海量文件排序
方案1:
方案2:
方案3:
在2.5亿个整数中找出不重复的整数。数据氛围是
5亿个int找它们的中位数。
十个海量数据处理方法大总结
一、Bloom filter
二、Hashing
三、bit-map
四、堆
code
0%