紧张而又忙碌的双11终于过去了,我们的系统经受住了考验,健康平稳的运行。在这一段时间,收获不少知识,更加深刻理解大型分布式系统设计,高并发,大流量系统设计。
1.对机器配置,机房网络情况都有一定了解。
对使用机器配置内存,cpu,网卡类型(千兆/万兆),一定要了解。把配置低的机器赶紧找出来,利用双11,找领导要机器。机房是千兆/万兆很重要,千兆网络放一些不太重要,流量较低应用。万兆网络放重要,流量高应用。A机房到B机房是双专线,B机房到C机房是双专线,A机房到C机房则需要经过B机房,这些都需要了解,我们的服务器部署在那些机房是最合适。在那些经受住考验机房部署重要应用,新机房做备份。
2.跨机房容灾
我们应用服务器集群主要提供RPC服务,服务器集群会调用redis集群。A机房redis集群出现问题能立即切换到了B机房redis集群。A,B机房都部署了应用服务器集群,若A机房应用服务器集群挂掉,则把流量都引入到B机房应用服务器集群,要预先多加机器,反之,同理。
3.redis集群注意事项
1.redis集群采用链式主从。
2.redis集群支持跨机房容灾。
3.流量较大应用服务器连接redis slave集群最底层,具体情况,具体分析。这样好处就是不至于redis slave集群流量过大,导致下游redis slave集群不可用。有一组redis集群要有AOF,以快速恢复数据。
4.redis集群监控,报警。
4.应用服务器集群注意事项
1.根据业务,应用服务器集群实现垂直化。A集群只能接入A业务。
2.通过zookeeper,快速切换redis集群地址,重要参数,不用重启服务器。
3.应用服务器集群支持跨机房容灾。
4.机器Cpu,Tcp连接,IO input/Output,负载等重要参数监控,报警。应用关键key监控,报警。
5.实现业务流量管理。若A应用服务器集群流量很大,迅速找出调用业务量的IP,找到相关业务负责人,进行切流量。必要时,直接对该IP禁止调用。
Read full article from 双11收获-IT技术精华网
No comments:
Post a Comment