Quando um site “não aparece no Google”, 80% das vezes o problema é básico:

o Google não consegue acessar a página (bloqueio)
consegue acessar, mas não indexa (qualidade, duplicação, sinal confuso)
indexa, mas não ranqueia (relevância/autoridade/experiência)

Este post foca no primeiro bloco: rastreamento e indexação.

Como o Google encontra páginas (rastreamento)

O Google descobre URLs principalmente de três jeitos:

links (internos e externos)
sitemap
URLs enviadas/descobertas via Search Console

Se uma página não tem links apontando para ela e não está no sitemap, ela pode ficar invisível por muito tempo.

robots.txt: o que ele faz (e o que ele não faz)

O robots.txt é um arquivo que dá instruções de rastreamento.

Ele pode bloquear rastreamento
Ele não impede indexação em todos os casos (se a URL for descoberta por links externos, pode aparecer como “URL conhecida”)

Exemplo simples e seguro

Se você quer bloquear áreas internas (admin, carrinho, etc.):

User-agent: *
Disallow: /admin/
Disallow: /minha-conta/
Disallow: /checkout/

Erros comuns:

bloquear / sem querer (e matar o site inteiro)
bloquear /assets/ e quebrar renderização
bloquear páginas que deveriam ranquear (serviços, categorias, posts)

sitemap.xml: o mapa do que importa

O sitemap deve listar URLs canônicas e indexáveis.

Boas práticas:

não incluir páginas de busca interna
não incluir duplicatas (com parâmetros)
não incluir páginas com noindex
atualizar automaticamente

No Search Console, envie o sitemap e monitore:

URLs enviadas
URLs indexadas
erros (404, bloqueio, redirecionamento)

noindex: quando usar

noindex serve para dizer “pode rastrear, mas não indexe”.

Use em:

páginas de obrigado (thank-you)
páginas internas que não fazem sentido na busca
filtros infinitos (quando necessário)

Não use em:

páginas de serviço/produto
posts do blog
páginas que você quer ranquear (parece óbvio, mas acontece)

Canonical: a forma mais comum de confundir o Google

Canonical responde: “qual URL representa este conteúdo?”

O Google usa canonical como sinal forte para evitar duplicatas.

Quando você precisa de canonical

mesma página com parâmetros (ex.: ?utm_source=...)
variações de produto (quando a página principal é a mesma)
listagens duplicadas por filtros

Exemplo mental

Se estas URLs mostram essencialmente o mesmo conteúdo:

/produto-x
/produto-x?utm_source=instagram
/produto-x?ref=parceiro

Então as duas últimas devem apontar canonical para /produto-x.

“Mas eu já publiquei, por que o Google não indexa?”

Os motivos mais comuns:

site novo sem links/autoridade
conteúdo muito raso (não agrega)
duplicação (muitas páginas parecidas)
página lenta/inútil no mobile
erro técnico (bloqueio/noindex/canonical errado)

Checklist rápido (15 minutos)

site:seudominio.com mostra suas páginas?
robots.txt existe e não bloqueia áreas importantes?
sitemap.xml existe e foi enviado ao Search Console?
páginas importantes não têm noindex?
canonicals fazem sentido (não apontam para home por engano)?

Quando vale pedir indexação manual

Pedir indexação ajuda quando:

você acabou de corrigir algo grande
atualizou uma página importante
publicou uma página que precisa entrar rápido

Mas não substitui a base: links internos + sitemap + qualidade.

Se você quiser, dá para automatizar a auditoria desses itens (bloqueios, canonicals, indexação e problemas técnicos) e receber uma lista priorizada do que corrigir primeiro.

Rastreamento e indexação sem mistério: robots.txt, sitemap e canonical (com exemplos)