博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
海量数据统计总结...
阅读量:2440 次
发布时间:2019-05-10

本文共 308 字,大约阅读时间需要 1 分钟。

1.有10个文件,每个文件1G,每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。如何按照query的频度排序。

 

2.海量日志数据,提取出某日访问百度次数最多的那个IP。

 

 

对于这类问题, 通常要使用分而治之的思想, 因为内存中不能够存放的下所有的数据, 为了保证将海量数据分成几个小块后, 每个小块中的元素都互不相同, 也就是值相同的元素要被分到同一个数据块中, 可以使用hash的方法, hash(value) % n, n就是要分的块数, 这样在每个小块中在使用hash_map的方法统计每个value的频度, 再利用堆排序对每个小块的频度进行排序, 最后对所有的小块进行归并排序...

转载地址:http://mckqb.baihongyu.com/

你可能感兴趣的文章
postgresql 优化与维护
查看>>
mongodb replica sets 测试
查看>>
linux AS6.2 与 as5.4 的对比,性能提升明显
查看>>
FLASHCACHE 的是是非非
查看>>
length() between oracle and postgresql
查看>>
求无序数组总第n大的数
查看>>
99-lisp lisp 的99个问题 P1-10
查看>>
PG 函数的易变性(Function Volatility Categories)
查看>>
Lisp Quote 和Backquote分析
查看>>
PG psql 变彩色显示
查看>>
SICP 练习 1.3
查看>>
pg 数据库HA 启动脚本的两个假设
查看>>
PG9.2.3 发布
查看>>
sql_log_bin在GTID复制下的一个现象
查看>>
双主+haproxy手工切换的一个注意点
查看>>
利用binlog2sql实现闪回
查看>>
mongos分片集群下db数量过多导致服务不可用
查看>>
mysql唯一索引的一个小常识--Duplicate entry 'XXX' for key 'XXX'
查看>>
故障处理--mongos count不准
查看>>
大量短连接导致haproxy服务器端口耗尽
查看>>