海量数据统计总结...-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

海量数据统计总结...

阅读量：2440 次

发布时间：2019-05-10

本文共 308 字，大约阅读时间需要 1 分钟。

1.有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。如何按照query的频度排序。

2.海量日志数据，提取出某日访问百度次数最多的那个IP。

对于这类问题，通常要使用分而治之的思想，因为内存中不能够存放的下所有的数据，为了保证将海量数据分成几个小块后，每个小块中的元素都互不相同，也就是值相同的元素要被分到同一个数据块中，可以使用hash的方法， hash(value) % n, n就是要分的块数，这样在每个小块中在使用hash_map的方法统计每个value的频度，再利用堆排序对每个小块的频度进行排序, 最后对所有的小块进行归并排序...

转载地址：http://mckqb.baihongyu.com/

你可能感兴趣的文章

postgresql 优化与维护

mongodb replica sets 测试

linux AS6.2 与 as5.4 的对比，性能提升明显

FLASHCACHE 的是是非非

length（） between oracle and postgresql

求无序数组总第n大的数

99-lisp lisp 的99个问题 P1-10

PG 函数的易变性（Function Volatility Categories）

Lisp Quote 和Backquote分析

PG psql 变彩色显示

SICP 练习 1.3

pg 数据库HA 启动脚本的两个假设

sql_log_bin在GTID复制下的一个现象

双主+haproxy手工切换的一个注意点

利用binlog2sql实现闪回

mongos分片集群下db数量过多导致服务不可用

mysql唯一索引的一个小常识--Duplicate entry 'XXX' for key 'XXX'

故障处理--mongos count不准

大量短连接导致haproxy服务器端口耗尽

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-07-07 21:04:11 当前IP: 3.141.31.222 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我