Rastreamento e indexação sem mistério: robots.txt, sitemap e canonical (com exemplos)
Seu site não aparece no Google? Entenda como o Google rastreia e indexa, e configure robots.txt, sitemap.xml e canonicals do jeito certo.
Quando um site “não aparece no Google”, 80% das vezes o problema é básico:
- o Google não consegue acessar a página (bloqueio)
- consegue acessar, mas não indexa (qualidade, duplicação, sinal confuso)
- indexa, mas não ranqueia (relevância/autoridade/experiência)
Este post foca no primeiro bloco: rastreamento e indexação.
Como o Google encontra páginas (rastreamento)
O Google descobre URLs principalmente de três jeitos:
- links (internos e externos)
- sitemap
- URLs enviadas/descobertas via Search Console
Se uma página não tem links apontando para ela e não está no sitemap, ela pode ficar invisível por muito tempo.
robots.txt: o que ele faz (e o que ele não faz)
O robots.txt é um arquivo que dá instruções de rastreamento.
- Ele pode bloquear rastreamento
- Ele não impede indexação em todos os casos (se a URL for descoberta por links externos, pode aparecer como “URL conhecida”)
Exemplo simples e seguro
Se você quer bloquear áreas internas (admin, carrinho, etc.):
User-agent: *
Disallow: /admin/
Disallow: /minha-conta/
Disallow: /checkout/
Erros comuns:
- bloquear
/sem querer (e matar o site inteiro) - bloquear
/assets/e quebrar renderização - bloquear páginas que deveriam ranquear (serviços, categorias, posts)
sitemap.xml: o mapa do que importa
O sitemap deve listar URLs canônicas e indexáveis.
Boas práticas:
- não incluir páginas de busca interna
- não incluir duplicatas (com parâmetros)
- não incluir páginas com
noindex - atualizar automaticamente
No Search Console, envie o sitemap e monitore:
- URLs enviadas
- URLs indexadas
- erros (404, bloqueio, redirecionamento)
noindex: quando usar
noindex serve para dizer “pode rastrear, mas não indexe”.
Use em:
- páginas de obrigado (thank-you)
- páginas internas que não fazem sentido na busca
- filtros infinitos (quando necessário)
Não use em:
- páginas de serviço/produto
- posts do blog
- páginas que você quer ranquear (parece óbvio, mas acontece)
Canonical: a forma mais comum de confundir o Google
Canonical responde: “qual URL representa este conteúdo?”
O Google usa canonical como sinal forte para evitar duplicatas.
Quando você precisa de canonical
- mesma página com parâmetros (ex.:
?utm_source=...) - variações de produto (quando a página principal é a mesma)
- listagens duplicadas por filtros
Exemplo mental
Se estas URLs mostram essencialmente o mesmo conteúdo:
/produto-x/produto-x?utm_source=instagram/produto-x?ref=parceiro
Então as duas últimas devem apontar canonical para /produto-x.
“Mas eu já publiquei, por que o Google não indexa?”
Os motivos mais comuns:
- site novo sem links/autoridade
- conteúdo muito raso (não agrega)
- duplicação (muitas páginas parecidas)
- página lenta/inútil no mobile
- erro técnico (bloqueio/noindex/canonical errado)
Checklist rápido (15 minutos)
site:seudominio.commostra suas páginas?robots.txtexiste e não bloqueia áreas importantes?sitemap.xmlexiste e foi enviado ao Search Console?- páginas importantes não têm
noindex? - canonicals fazem sentido (não apontam para home por engano)?
Quando vale pedir indexação manual
Pedir indexação ajuda quando:
- você acabou de corrigir algo grande
- atualizou uma página importante
- publicou uma página que precisa entrar rápido
Mas não substitui a base: links internos + sitemap + qualidade.
Se você quiser, dá para automatizar a auditoria desses itens (bloqueios, canonicals, indexação e problemas técnicos) e receber uma lista priorizada do que corrigir primeiro.
Quer um diagnóstico do seu site?
Descubra por que seu site não aparece no Google e o que fazer primeiro para melhorar o SEO.
Analise seu site grátis agora