O que é Auto Scaling
Auto Scaling é a capacidade de ajustar automaticamente os recursos computacionais de uma aplicação conforme a demanda real do momento. Quando o tráfego sobe (Black Friday, lançamento de campanha, horário de pico), o sistema adiciona servidores; quando a demanda cai, remove instâncias excedentes — pagando apenas pelo que realmente é usado.
O conceito é central em arquiteturas cloud-native e é oferecido por todos os principais provedores: AWS Auto Scaling Groups, Azure Virtual Machine Scale Sets, Google Cloud Managed Instance Groups e Kubernetes HPA (Horizontal Pod Autoscaler).
Tipos de Auto Scaling
- Horizontal (scale out/in): Adiciona ou remove instâncias (mais comum)
- Vertical (scale up/down): Aumenta ou diminui recursos de uma única instância
- Predictive: Usa machine learning para antecipar demanda
Componentes essenciais
- Métricas (triggers): CPU, memória, requisições por segundo, latência
- Scaling Policies: Regras que definem quando escalar (ex: CPU > 70% por 5 min)
- Cooldown Period: Tempo de espera entre ações para evitar oscilação
- Health Checks: Detecta e substitui instâncias com falha
Quando usar
Auto Scaling brilha em e-commerces sazonais, SaaS com picos de uso, aplicações com cargas imprevisíveis e WordPress de alto tráfego. Combinado com alta disponibilidade, load balancing e automação via Ansible, forma a base de uma infraestrutura elástica e resiliente.
Leia o artigo completo: Auto Scaling: como dimensionar infraestrutura automaticamente na nuvem

