Redis集群踩坑记

背景系统中Redis使用三台服务器(slave01,slave02,slave03),交叉搭建了三主三从集群。一段时间内,Redis集群频繁出现CLUSTERDOWN异常,使用redis-cli客户端连上集群后,使用cluster info查看集群信息,发现 cluster_state状态为fail,排查发现slave02服务器负载超高,redis服务已经连不上了。但奇怪的是该服务器上只有一...

发布于 technology

阿里云redis事故纪录

经过 今天早上生产出现事故,所有到网站的请求nginx报500错误,查看后台日志,发现连不上redis了; 进入服务器,可以连上redis, 但是所有操作提示需要登陆,当时没有重视,只是纪录并重启redis; 下午再次出现相同情况。查看连接到redis端口的日志,发现了不属于公司服务器的IP,怀疑是被阿里云内网机器脚本扫描并攻击端口。 修改了阿里云的安全策略,由允许内网访问(当时没考虑到阿里...

发布于 technology