Remover Página do Google: Métodos e Implicações

{+}

Remover página do Google

De tempos em tempos a pergunta sobre como remover uma página dos resultados de uma busca do Google reaparece. Para especificar melhor, o assunto deste artigo é sobre como remover uma página do seu próprio site dos resultados de busca. Para “remover” uma página de um site de terceiro, existem algumas alternativas, por hora, recomendo o uso de SERP Domination.

Voltando ao tema deste artigo, existem diversas maneiras de se remover um conteúdo do seu site do índice de resultados do Google, cada um com uma implicação diferente e, com certeza, simplesmente bloquear a URL no robots.txt não é uma delas.

O Mito do Robots.txt

” Bloquear via robots.txt”  é a resposta mais frequênte a esta pergunta, mas ela é errada, pois está incompleta. Essa resposta tem já uma alta disseminação entre SEOs e curiosos do assunto devido ao conceito geral sobre a funcionalidade do protocolo usado no robots.txt:

O robots.txt é o arquivo usado para bloquear o acesso do Google ao site

Essa definição resume bem sim o conceito do protocolo, mas deixa muito espaço aberto para interpretações erradas que acabam levando as pessoas a entenderem errado o seu funcionamento e, obviamente, erram no seu uso.

A afirmação anterior precisa de complementos, pois ao bloquear o acesso a uma URL via robots.txt:

  • se a página já estava indexada, ela permanecerá e com todas informações que já estavam no resultado de busca, como cache, título e snippet.
  • se a página não estava indexada, ela pode ainda assim aparecer em resultados de busca, porém sem informações da página em si (cache, título e snippet com base no HTML da página)

No segundo caso, uma URL não indexada que esteja bloqueada via robots.txt ainda assim pode aparecer em resultados de busca se receber links de outras páginas na web. O detalhe é que tipicamente o Google mostra o título da página como a URL ou o texto âncora usado em links para a página. Por outro lado, não é exibido snippet, pois o Google não acessa o conteúdo da página.

O Uso Correto de Robots.txt em Remoção de Conteúdo

Desmistificado o robots.txt, agora é possível usá-lo da maneira correta quando se deseja remover um conteúdo dos resultados de pesquisa. Na verdade, o robots.txt não faz isso, mas sim a meta tag robots com valor noindex:

<meta name="robots" content="noindex" />

Voltando aos 2 casos anteriores, quando a página já está indexada e quando a página não está indexada, a meta tag robots vai acabar resultando no mesmo efeito final: desindexar (remover) a página que contem a meta tag configurada conforme mencionado dos resultados de busca. Se a página já estava indexada, ela será desindexada. Se a página nem estava indexada, ela também não será.

Aí sim, após desindexação, você pode opcionalmente bloquear o acesso a URL via robots.txt.

O Paradoxo Meta NoIndex vs. Robots.txt

Pelo visto até agora, temos bem definidas as funcionalidades de cada um destes itens: a meta tag robots e o arquivo robots.txt:

  • Robots.txt: Não permite que uma search engine receba o conteúdo de uma determinada página.
  • Meta tag robots: Permite o acesso ao conteúdo, mas não permite a indexação deste conteúdo.

Curiosamente, isto leva a um paradoxo: O que acontece com uma página que é simultaneamente bloqueada no robots.txt e tem configurada a meta tag robots com valor noindex? O robots.txt diz a Search Engine que  não pode ter acesso ao conteúdo. A meta tag robots indica que a página não deve ser indexada, mas isso é uma informação que está no conteúdo da página, a qual a Seach Engine não tem acesso pois está bloqueado no robots.txt.

Como citei anteriormente, o bloqueio via robots.txt não impede indexação, logo, se uma página nova vai ao ar bloqueada via robots.txt e com a meta tag robots/noindex, a meta tag perde seu efeito, pois a Search Engine jamais acessou o conteúdo da página para saber que ela não deve ser indexada e, por consequência, vai exibir sua URL em resultados de busca.

Por isso a necessidade de, no processo de remoção de URL com meta robots/noindex, primeiro utilizar a meta tag, aguardar a desindexação dela e somente depois mexer no Robots. Mas isso leva ao paradoxo:

Com o bloqueio via robots.txt, a Search Engine não mais terá acesso ao conteúdo da página, e não mais saberá da meta tag bloqueando indexação. O que acontece com a página então?

Considerando o caso anterior, de se tentar remover uma URL das buscas somente bloqueando via robots.txt, o que acontece é que a página não volta a ser indexada, pois a última informação que a Search Engine tinha sobre a página permanece, ou seja:

  • Se antes era permitida indexação, a página permanece nos resultados de busca, a Search Engine não mais acessa seu conteúdo, mas mantém as últimas informações que tinha sobre a página;
  • Se antes a página não podia ser indexada, a página permanece não podendo ser.

Resolvendo o paradoxo.

Ferramenta do Google para Remoção de URLs

Robots e meta tags a parte, o Google oferece uma opção para o webmaster indicar uma URL do seu site a ser removida dos resultados de busca através do Google Webmasters Tools:

URL Removal Tool

Mas é necessário um cuidado extra aqui: remover uma URL usando essa ferramenta aumenta muito a dificuldade de fazê-la retornar ao índice do Google. Isso é praticamente um “não use essa ferramenta,” apenas saiba que ela existe, pois uma vez aplicada a URL, ela não volta. Assim, nem mesmo tendo muita certeza de que a URL não será reaproveitada, a ferramenta é uma boa opção. Porém, se de tudo você quiser utilizá-la, ela está a disposição.

Redirecionamento 301

Uma opção que raramente vem a mente quando se fala em remover conteúdo do índice do Google é o redirecionamento 301. No fim das contas, é uma solução completa e inteligente, para quando não se deseja manter o conteúdo acessível. Aqui na Agência Mestre, o Fábio Ricotta publicou um artigo com exemplos de códigos em diversas linguagens, entre elas:

  • PHP
  • ASP
  • ColdFusion
  • Ruby on Rails

Além de exemplos de códigos de .htaccess para tal. O artigo Redirecionamento 301 é bem completo e por lá você pode conferir os códigos e tirar suas dúvidas.

As soluções anteriores para remoção de conteúdo utilizando meta tag robots/noindex e a ferramenta do Google removem a URL do índice e resolvem a questão, especialmente quando o webmaster vai manter o conteúdo disponível para acesso no site. Por outro lado, quando o conteúdo vai ser removido do site, o redirecionamento 301 é a melhor solução.

Além de evitar erros 404 de quando uma página não é encontrada, o redirecionamento 301 transfere quase toda a força que a página acumulou para a página a qual foi redirecionada. Além de evitar que o usuário passe pela experiência de não encontrar um conteúdo no site, o redirecionamento indica também aos robôs de busca o novo caminho a seguir e o novo conteúdo. E mais importante, ao detectar o 301, a Search Engine atualiza a URL no resultado de busca, atualiza o cache e a página antiga é removida dos índices de busca:

  1. Googlebot solicita página A
  2. Servidor informa o redirecionamento permanente (301) para página B
  3. Googlebot descarta página A e atualiza seus índices com a página B

O ponto importante nesse caso é redirecionar o visitante para o conteúdo mais próximo (uma categoria ou post/produto relacionado), e não para a página inicial, como é comum acontecer. A página inicial deve ser o alvo apenas quando não houver nenhum conteúdo relacionado mesmo.

Extra

Mesmo que a intenção seja manter o conteúdo disponível, o redirecionamento 301 continua sendo uma opção, porém, fica necessário um pouco mais de atenção na configuração toda e conscientização sobre possíveis perdas. O procedimento fica:

  1. Prepare o redirecionamento 301 da página antiga para uma outra
  2. Mude o nome da página que deve ser removida do índice
  3. Adicione a meta tag robots/noindex na página a ser removida
  4. Ative o redirecionamento

Desta maneira você tem a possibilidade de manter os rankings e visitas que tinha com o conteúdo antigo, aproveita a força que ele tinha em um conteúdo diferente e disponibiliza a página antiga em outra URL, a qual o Google não vai indexar por estar com a meta tag robots configurada apropriadamente.

Mas existem ressalvas: pessoas com bookmarks criados para a URL antiga serão redirecionados para o conteúdo novo, o que pode ser uma experiência negativa para elas. Medir o impacto de uma mudança dessas é simples – basta procurar pelo tráfego direto e tráfego de referência que a página recebe, ou seja, tráfego que não veio de Search Engines. Se for um valor pequeno, essa é uma alternativa a se considerar.

Do mesmo modo que antes, ao identificar o redirecionamento, o Google atualiza seu índice com o novo conteúdo e remove a página antiga de seus índices. Se o conteúdo indicado no redirecionamento for similar ao antigo, os rankings e as visitas podem se manter.

Receba Novidades

Insira seu email para receber novidades e dicas exclusivas da Agência Mestre!
Divulgue este artigo

2 Comentários para “Remover Página do Google: Métodos e Implicações”

  1. solpublicidade

    Oi Frank, não seria interessante nesse artigo, caso tenha realmente coerência, informar que ao bloquear o conteúdo da página pode se perder o JUICE, pois se o bot não consegue ler a página, ele também não consegue ver para onde ela está distribuindo JUICE. Isso procede?

    Pelo que vi, a única solução é com a metatag robots, adicionar …,follow”> Para informar ao bot que essa página mesmo não sendo exibida, fornece Juice para outras.

    ex.:

    Abraço,

    João Vargas – Sol Publicidade
    joao@solpublicidade.com

    Responder
    • Frank Marcel

      Você tem razão. Não inclui este tipo de informação no artigo por não ser o foco mesmo. Aqui, tratei a questão do acesso do Googlebot as páginas do site e possível indexação.

      Responder

Deixar um comentário

  • (não será publicado)

XHTML: Você pode usar estas tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>