redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?

作者:神秘网友 发布时间:2020-09-09 12:53:59

redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?

redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?

文章目录

    • 为什么要使用 HyperLogLog?
      • HyperLogLog 介绍
    • 基础使用
      • 添加元素
        • 相关语法:
      • 统计不重复的元素
        • 相关语法:
      • 合并一个或多个 HLL 至新结构 新增 k 和 k2 合并至新结构 k3 中
        • 相关语法

在我们实际开发的过程中,可能会遇到这样一个问题,当我们需要统计一个大型网站的独立访问次数时,该用什么的类型来统计?

如果我们使用 Redis 中的集合来统计,当它每天有数千万级别的访问时,将会是一个巨大的问题。因为这些访问量不能被清空,我们运营人员可能会随时查看这些信息,那么随着时间的推移,这些统计数据所占用的空间会越来越大,逐渐超出我们能承载最大空间。

例如,我们用 IP 来作为独立访问的判断依据,那么我们就要把每个独立 IP 进行存储,以 IP4 来计算,IP4 最多需要 15 个字节来存储信息,例如:110.110.110.110。当有一千万个独立 IP 时,所占用的空间就是 15 bit*10000000 约定于 143MB,但这只是一个页面的统计信息,假如我们有 1 万个这样的页面,那我们就需要 1T 以上的空间来存储这些数据,而且随着 IP6 的普及,这个存储数字会越来越大,那我们就不能用集合的方式来存储了,这个时候我们需要开发新的数据类型 HyperLogLog 来做这件事了。

HyperLogLog 介绍

HyperLogLog(下文简称为 HLL)是 Redis 2.8.9 版本添加的数据结构,它用于高性能的基数(去重)统计功能,它的缺点就是存在极低的误差率。
HLL 具有以下几个特点:

  • 能够使用极少的内存来统计巨量的数据,它只需要 12K 空间就能统计 2^64 的数据;
  • 统计存在一定的误差,误差率整体较低,标准误差为 0.81%;
  • 误差可以被设置辅助计算因子进行降低。

HLL 的命令只有 3 个,但都非常的实用,下面分别来看。

添加元素

127.0.0.1:6379> pfadd key "redis"
(integer) 1
127.0.0.1:6379> pfadd key "java" "sql"
(integer) 1

redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?

相关语法:

pfadd key element [element ...]

此命令支持添加一个或多个元素至 HLL 结构中。

统计不重复的元素

127.0.0.1:6379> pfadd key "redis"
(integer) 1
127.0.0.1:6379> pfadd key "sql"
(integer) 1
127.0.0.1:6379> pfadd key "redis"
(integer) 0
127.0.0.1:6379> pfcount key
(integer) 2

redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?

从 pfcount 的结果可以看出,在 HLL 结构中键值为 key 的元素,有 2 个不重复的值:redis 和 sql,可以看出结果还是挺准的。

相关语法:

pfcount key [key ...]

此命令支持统计一个或多个 HLL 结构。

合并一个或多个 HLL 至新结构 新增 k 和 k2 合并至新结构 k3 中

127.0.0.1:6379> pfadd k "java" "sql"
(integer) 1
127.0.0.1:6379> pfadd k2 "redis" "sql"
(integer) 1
127.0.0.1:6379> pfmerge k3 k k2
OK
127.0.0.1:6379> pfcount k3
(integer) 3

redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?

相关语法

pfmerge destkey sourcekey [sourcekey ...]

redis 使用-->>基数统计算法-HyperLogLog 热点统计如何做?相关教程

  1. 输入函数cin、scanf函数的使用
  2. Go语言(Golang)sort包的使用
  3. 使用Python爬取前程无忧上南京地区Python职位以及对应工资
  4. Idea 使用Maven创建Spark WordCount 案例
  5. 第4篇 案例:使用 spring 的 IoC 的实现账户的 CRUD
  6. element中el-table使用v-if来控制列的显示隐藏 问题记录
  7. gedis:自己实现go语言的redis客户端 第六节(客户端分片集群实
  8. 在IDEA中使用Docker部署SpringBoot项目