Como diagnosticar indisponibilidade de site

Quando um site cai, a pergunta errada costuma vir primeiro: “o problema é no servidor?”. Às vezes é. Mas, em muitos casos, a falha está em DNS, certificado, firewall, rota de rede, cache local ou até em uma indisponibilidade parcial que só afeta parte dos usuários. Entender como diagnosticar indisponibilidade de site exige separar sintoma de causa antes de trocar configuração às pressas.

A abordagem mais útil não começa reiniciando serviço nem abrindo chamado genérico para a hospedagem. Ela começa com uma triagem curta e objetiva: o site está fora para todo mundo ou só para uma origem específica? O domínio resolve? O servidor responde? O erro acontece no navegador, na aplicação ou antes disso? Sem essa ordem, o diagnóstico vira tentativa e erro.

Como diagnosticar indisponibilidade de site sem perder tempo

O primeiro passo é definir o tipo de indisponibilidade. “Site fora do ar” pode significar várias coisas diferentes. Pode ser falha total, quando nada responde. Pode ser falha intermitente, quando o site abre em alguns momentos e falha em outros. Pode ser falha regional, quando usuários de determinados provedores ou estados não conseguem acessar. E pode ser falha de camada de aplicação, quando o domínio responde, mas a página retorna erro 500, 502, 503 ou timeout.

Essa distinção importa porque cada cenário aponta para um conjunto diferente de causas. Se o domínio não resolve, o foco vai para DNS. Se resolve, mas não conecta, o problema pode estar em rede, firewall ou porta. Se conecta e devolve erro HTTP, o caminho muda para servidor web, aplicação, banco ou dependências externas.

Antes de qualquer análise mais profunda, teste a partir de mais de um ambiente. Use uma conexão móvel e outra fixa. Tente em janela anônima. Verifique acesso por outro dispositivo. Isso evita perder tempo com cache corrompido, DNS local desatualizado ou bloqueio na própria rede do usuário.

Verifique se a falha é de DNS, rede ou aplicação

Uma forma prática de pensar no diagnóstico é seguir a jornada do acesso. Primeiro o navegador precisa descobrir para onde ir. Depois precisa chegar ao servidor. Só então a aplicação entrega o conteúdo.

Se o domínio não resolve para um IP, o navegador nem começa a conversa com o servidor. Nessa etapa, vale checar se os registros DNS existem, se apontam para o destino correto e se houve alteração recente. Mudança de nameserver, expiração de zona, erro de registro A, AAAA ou CNAME e propagação incompleta são causas comuns. Também é importante observar TTL alto demais após mudança urgente, porque isso prolonga comportamento inconsistente entre regiões.

Se o DNS resolve, mas a conexão falha, o problema pode estar no caminho até o servidor. Portas fechadas, regras de firewall, bloqueio por WAF, saturação de rede, problema no balanceador ou instância fora do ar entram aqui. Nessa fase, testar resposta em 80 e 443 ajuda bastante. Quando HTTP abre e HTTPS falha, o indício costuma apontar para certificado, configuração TLS ou proxy reverso.

Se a conexão acontece, mas o site retorna erro, a investigação sobe para a camada da aplicação. Erro 500 sugere falha interna. Erro 502 e 504 costumam indicar problema entre proxy e aplicação. Erro 503 pode sinalizar manutenção, sobrecarga ou serviço indisponível. Já páginas parcialmente carregadas, com layout quebrado ou scripts ausentes, podem denunciar falha em CDN, arquivos estáticos ou dependências externas.

Sinais que ajudam a localizar a origem

Mensagens de erro dizem mais do que parece. “DNS_PROBE_FINISHED_NXDOMAIN” aponta para resolução de nome. “Connection timed out” costuma sugerir ausência de resposta no caminho ou no serviço. “ERR_SSL_PROTOCOL_ERROR” leva a certificado, versão TLS ou configuração incorreta. Uma tela branca ou erro genérico da aplicação geralmente indica problema após a conexão básica funcionar.

Logs também mudam o jogo. Se o servidor web não registra a requisição, talvez ela nem esteja chegando. Se registra e devolve 499, 502 ou 504, o gargalo pode estar atrás do proxy. Se a aplicação registra exceções em sequência logo após um deploy, a indisponibilidade provavelmente nasceu da última alteração. Em operações mais maduras, cruzar horário de falha com deploy, renovação de certificado, alteração de DNS ou mudança em regra de segurança costuma encurtar o diagnóstico de forma radical.

Vale observar o padrão do impacto. Se apenas usuários de uma região têm falha, a causa pode estar em rota de operadora, nó de CDN ou resolução regional. Isso pode ser especialmente relevante para operações distribuídas em estados como São Paulo, Paraná e Santa Catarina, onde a percepção de indisponibilidade pode variar por provedor e ponto de presença. Se o problema afeta só o painel administrativo, mas o site público responde, o incidente é outro e precisa de tratamento separado.

O que checar em cada camada

Na camada de domínio e DNS, confirme expiração do domínio, nameservers ativos, registros corretos e propagação coerente. Um erro pequeno de apontamento já basta para derrubar um ambiente inteiro após migração.

Na camada de borda e segurança, revise CDN, proxy, firewall, WAF e regras de bloqueio. Um ajuste agressivo de proteção pode transformar tráfego legítimo em falso positivo. Isso acontece muito depois de picos de acesso ou tentativas de ataque, quando a equipe fecha demais o perímetro e afeta usuários reais.

Na camada de transporte, verifique portas, handshake TLS, validade do certificado e cadeia de certificação. Certificado vencido nem sempre “derruba” tecnicamente o site, mas pode torná-lo inacessível para a maioria dos usuários por bloqueio do navegador.

Na camada de servidor, olhe consumo de CPU, memória, disco e processos essenciais. Um site pode parecer fora do ar quando, na prática, está apenas sem recurso para responder em tempo hábil. Disco cheio, fila de processos presa e reinício em loop aparecem com frequência maior do que se imagina.

Na aplicação, revise logs, jobs, conexões com banco, cache, filas e integrações externas. Quando uma API crítica para de responder, o site inteiro pode sofrer mesmo com servidor saudável. Aqui existe um ponto importante: nem toda indisponibilidade vem do seu ambiente principal. Às vezes o problema está em um terceiro que a aplicação trata mal.

Erros comuns durante o diagnóstico

O erro mais comum é assumir causa antes de validar escopo. Reiniciar servidor pode até restaurar o acesso por alguns minutos, mas sem descobrir por que a falha ocorreu, o problema volta. Outro erro frequente é testar de um único computador e concluir que o site caiu para todos. Em muitos incidentes, a falha é local, regional ou restrita a IPv6, por exemplo.

Também atrapalha ignorar mudanças recentes. Se houve deploy, troca de DNS, renovação de certificado ou ajuste em firewall, a chance de relação causal é alta. Nem sempre a mudança foi “errada”; às vezes ela apenas expôs uma dependência antiga ou uma configuração que já estava no limite.

Há ainda o oposto: culpar a mudança mais recente sem evidência. Correlação ajuda, mas não substitui validação técnica. Um bom diagnóstico pede sequência lógica, não suspeita apressada.

Como estruturar um processo de resposta melhor

Se a indisponibilidade já aconteceu mais de uma vez, o problema não é só técnico – é de processo. Vale documentar uma rotina mínima de triagem com perguntas objetivas: quem é afetado, desde quando, qual erro aparece, houve mudança recente, DNS resolve, servidor responde, aplicação entrega conteúdo? Esse roteiro simples reduz ruído e melhora a comunicação entre infraestrutura, desenvolvimento e atendimento.

Monitoramento também precisa ir além do “ping responde”. Um site pode estar tecnicamente online e operacionalmente indisponível. O ideal é acompanhar disponibilidade do domínio, handshake HTTPS, tempo de resposta e um teste de aplicação, como carregar uma página crítica. Alertas muito genéricos avisam tarde; alertas bem definidos mostram em que camada a falha começou.

Outra prática útil é manter registro dos incidentes com causa raiz, tempo de detecção e tempo de recuperação. Isso evita repetir correções superficiais. Se a recorrência vem de deploy sem validação, o remédio é pipeline melhor. Se vem de DNS mal gerido, o foco é governança. Se vem de saturação em horários específicos, talvez seja hora de rever capacidade.

Saber como diagnosticar indisponibilidade de site não significa adivinhar rápido. Significa eliminar hipóteses na ordem certa até sobrar a causa mais provável, e então confirmar com evidência. Quando esse hábito entra na operação, a equipe para de correr em círculos e começa a responder incidentes com clareza. E, para quem depende do site para existir de forma pública, clareza técnica já é metade da estabilidade.