Robots.txt

Olá leitores do blog da Mestre,

Os mecanismos de busca utilizam-se de robôs de busca, também conhecidos como webcrawlers/spiders, para percorrer toda a web, indexando todo ou quase todo o conteúdo disponível. Diante disto, foi criado um padrão, o “Protocolo de Exclusão de Robôs”, onde cada website pode incluir na raíz do seu website um arquivo chamado robots.txt que diz aos robôs de busca quais páginas eles não podem visitar.

A importância do Robots.txt

O robots.txt é um arquivo fundamental para todo projeto de website. É através dele que os mecanismos de busca sabem se podem ser ou não um determinado arquivo ou diretório de um site.

A primeira regra aqui é criar, mesmo que em branco, um arquivo robots.txt na raíz do seu domínio. Isto porque se algo acontecer com o seu servidor e você retornar algum código estranho, como o 500 ou 503 por exemplo, na solicitação do arquivo robots.txt o Google pode optar por não ler todo o seu site, com “medo” de ler algo que não possa.

Outro ponto de reforço é que deve existir apenas um robots.txt para cada site e este deve estar no diretório raiz. Se houver outro arquivo robots.txt em qualquer outro diretório, ele não será acessado. Em empresas grandes isso pode ser uma grande desvantagem, pois quando uma empresa é dividida em setores, nem todos os funcionários têm acesso ao diretório raiz do site.

Por fim, é fundamental você saber que o robots.txt não é uma forma de segurança, ele apenas impede que os robôs de busca leiam o conteúdo especificado, porém não barra usuários.

Como Criar um Arquivo robots.txt

Existem diversas maneiras de criar um arquivo robots.txt, como por exemplo, abrir o bloco de notas e criar a partir de lá. Mas aqui na Agência Mestre disponibilizamos uma ferramenta online e gratuita onde você pode inserir quais páginas você deseja bloquear dos robôs de busca e ele simplesmente fornece todo o código necessário para gerar o seu arquivo robots.txt. Vale apena testar.

O Funcionamento

Exemplos Iniciais de Formatação do robots.txt

Permite que todos os arquivos sejam indexados

User-agent: *

Disallow:

Não permite que nenhum arquivo seja indexado

User-agent: *

Disallow: /

Não permite que uma pasta seja indexada, com exceção do arquivo myfile.html que está dentro da pasta

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/myfile.html

Desabilitando o Googlebot para um diretório

Partindo para alguns exemplos mais complexos, caso você queira desabilitar que o Googlebot indexe qualquer arquivo que inicie com /directory

User-agent: Googlebot

Disallow: /directory

Desabilitando um conjunto de arquivos com nomes semelhantes

Podemos também desabilitar arquivos específicos, utilizando o curinga “asterisco”. Com ele você diz que existe uma cadeia de caracteres naquele lugar.

Por exemplo, desabilitar todos os arquivos que contenham “print=” em qualquer parte da URL:

User-agent: Googlebot

Disallow: /*print=

É importante saber que nem todos os robôs de busca aceitam o curinga. Sendo assim, especifique esta regra apenas para o Googlebot, caso você venha a utilizar.

Desabilitando regras específicas para diferentes mecanismos de busca

Você pode especificar regras para robôs de busca diferentes. Por exemplo, você pode colocar regras específicas (X,Y) para os demais robôs de busca e Z para o Googlebot:

User-agent: *

Disallow: X

Disallow: Y

User-agent: Googlebot

Disallow: Z

Liberando o acesso para um robô de busca somente

Neste exemplo, você só dará acesso ao Google para acessar seu site, visto que, a regra acima sobrescreve a de baixo.

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

É óbvio que você não deva fazer isto, mas este é um bom exemplo para você conhecer.

Requisitando desidenxação pelo Robots.txt

Uma forma de solicitar que o robô do Google (apenas ele suporta) desindexe uma página ou diretório é utilizar a diretiva “Noindex” no arquivo de robots.txt como especificado abaixo:

User-agent: *

Noindx: /diretorio-a-ser-removido-do-indice

Você pode testar dentro do Google Search Console e notar que o Google reconhece esta diretiva.

Conceitos Importantes sobre o Robots.txt

O uso do robots.txt se tornou amplamente utilizado para um método de controle e rastreamento do seu site. Assim tornou-se uma das primeiras coisas que você deve verificar para diagnosticar problemas de indexação ou algum outro problema no seu site. Embora quase todos os webmasters já utilizem esse arquivo, ainda há algumas coisas que causam mal entendidos, vamos a elas:

Robots.txt não dizem que a página será removida do índice dos search engines

A utilização do robots.txt pode evitar que os robôs de busca entrem em uma determinada página ou diretório, mas se a URL já foi indexada anteriormente a partir de fontes externas, ela usará essas informações para fazer o julgamento da página e formular os snippet (título e descrição que aparecerá nos players de busca).

Sendo assim, colocar uma regra para uma página não fará com que a mesma desapareça do Google. Existem outras formas de remover uma página do Google, mas o uso o robots.txt não é uma delas.

O robôs de busca seguem apenas o que você especifica para eles no robots.txt

Se você usar uma definição geral para todos os robôs de busca (ou seja: user-agent: *) e uma definição para um robô específico (por exemplo: User-agent: Googlebot) nas seções de User-agent, tenha em mente que o Google (e outros mecanismos de busca) só seguirá as seções mais específicas e irá ignorar todas as outras seções (incluindo a geral). Ex:

Funcionamento Robots TXT

Dê instruções claras no seu arquivo robots.txt

Dentro do arquivo robots.txt os robôs de busca leem uma instrução em uma URL a partir da esquerda para a direita, o que significa que eles bloqueiam ou permitem tudo após o “/” em uma URL, por exemplo se você colocar: “Disallow: /a” tudo que começa com “a” será descartado pelos robôs, neste caso a página www.seudominio.com.br/about.html será descartada pelo user-agent.