Redis Cluster

为什么需要集群

1、并发量

Redis 官方的提供的性能并发量10万/每秒。如果有些业务随着范围、体量越来越大，需要更多的QPS呢？比如需要100万/每秒呢？

2、数据量

常见的机器内存大约在 16 ~ 256G。如果有业务需要500G的数据内存诉求呢？

3、网络流量

比如常见的千兆网卡。如果业务流量已经超过了千兆网卡的需求呢？

可以配置更“强悍”的机器，比如超大的内存，更牛逼的CPU、网卡等。但这种方式如果需要更更强悍的机器呢？是否还能有保障。

就像一辆马车，一辆马拉不动，就考虑更换更强壮的动物来拉，比如换头大象。如果大象也拉不动了，就要考虑更多的大象来拉了。

正确的解决方案

分布式：简单的理解就是加机器。

集群的需求其实就是规模化的需求，高并发量，大数据量

为什么要做数据分布？

alt text 比如有一份全量数据，单机无法满足需求。所以需要对数据进行分区，比如有100分数据，按照一定的规则将数据分布在若干子集中。

分区是有一定规则的，常见的两种分区方式

顺序分区

比如有100分数据，有三个节点，顺序讲究的均衡，1~33 在第一个节点，33 ~66 在第二个节点，67 ~100 在第三个节点。

哈希分布（节点取模）

比如有100分数据，有三个节点，将100进行取模 hash(key) % 3，然后放到不同的节点上。

哈希分布有三种方式：

hash(key) % nodes

存在问题：原来有3个节点，现在需要扩容到4个节点。添加节点后数据会发生偏移。

alt text

针对这个问题，建议多倍扩容，来避免出现数据发生偏移。比如原来的 hash(key) % 3，现在将节点扩展为6个节点，hash(key)%6

alt text

可将槽理解为一个数字，它有一定的范围，比如 0~ 16383，每个槽对应你一个数据的子集，比如现有10万的数据，有一个16384的槽，按照哈希的规则，对每个数据做哈希计算