Hystrix 是 Netflix 在微服务高峰期推出的一套容错组件,它最有名的关键词是熔断、隔离、降级和监控。

在分布式系统里,真正危险的往往不是单个请求失败,而是下游依赖持续变慢或部分故障之后,线程池、连接池和重试机制一起把整个服务拖垮。Hystrix 的目标就是在这种连锁反应开始扩散前,把失败控制在局部。

熔断器是它最经典的设计。当系统检测到某个依赖在一段时间内错误率过高,就暂时切断对它的调用,不再把更多流量送进去。这样做不是放弃,而是让系统先活下来,再等待依赖恢复。

除了熔断,Hystrix 还强调资源隔离,例如通过线程池或信号量把不同依赖隔开,防止一个慢服务吃光整个应用的资源。与此同时,它也鼓励调用方提供 fallback,也就是在下游不可用时返回一个可接受但退化的结果。

今天 Hystrix 已经进入维护模式,很多团队会转向 Resilience4j 之类的新方案,但它留下的设计思想仍然有效:在分布式系统里,失败不是异常,而是常态,系统需要为失败预留结构。