SEO e Tipos de Arquivos

Uma dúvida diferente que as pessoas têm quanto a indexação de sites e páginas nas ferramentas de busca na Internet é em relação aos tipos de arquivos que são de fato indexados – PDF, SWF, PHP, JPG, ASP entre outros – e como as search engines tratam esses tipos de arquivo.

Primeiro de tudo: os bots não indexam toda URL que encontram na web, eles analisam sim o tipo de URL, o tipo do arquivo apontado pela URL para então tratá-lo. Geralmente, isto está associado ao objetivo da varredura do bot, ou seja, se ele saiu a procura de imagens, links apontando arquivos JPG, GIF, etc., vão interessar; enquanto em uma varredura genérica, ele não costuma baixar imagens e outros arquivos.

Tipos de Arquivos

Os arquivos são separados em alguns tipos, como imagem, texto, áudio, vídeo e outros, sendo identificados pela extensão do arquivo. A extensão de arquivo é o que vem depois do ponto, depois do nome do arquivo:

nome_do_arquivo.extensao

Tipicamente, arquivos com extensão JPG e GIF são imagens, EXE são executáveis (programas, jogos, aplicativos), PDF para o formato de documento do Adobe Acrobat Reader (número 1 para busca “click here“), HTM, HTML, PHP, ASP entre outros para páginas da Internet.

SEO e Tipos de Arquivos

Normalmente a extensão de uma página na web de nada influencia no posicionamento de um site ou de uma página, as search engines apenas verificam o tipo de arquivo, pois quando encontram URLs apontando arquivos com extensão EXE, elas não fazem o download desses arquivos. O mesmo vale para arquivos MP3, AVI, WMA, WMV e outros formatos de áudio e vídeo, pois são arquivos grandes e arquivos cujo conteúdo a search engine não consegue avaliar.

Arquivos com extensões de documentos de web (HTM, HTML, PHP, ASP, …) são seguidos e indexados normalmente. As search engines fazem o download desses arquivos e avaliam o seu conteúdo. Um detalhe aqui: se a search engine não está fazendo uma varredura por busca de imagens, ao baixar um documento de web, ela não faz o download de imagens que estejam nesse documento sempre, pois é pouco provável que a imagem tenha sido trocada, assim a search engine poupa tempo, largura de banda e capacidade de transferência de bytes.

Por outro lado, se a varredura é uma busca por imagens, então a search engine faz o download de imagens com atenção ao texto que está próximo das imagens.

Não posso deixar de citar arquivos em flash: recentemente o Google e a Adobe fizeram o anúncio de que o Google indexa sites em flash agora – Na verdade nenhuma novidade foi publicada, pois eles divulgaram que embora o Google tenha problemas para indexar flash, o que não é novidade, ele consegue indexar alguma coisa (mas foi uma brilhante jogada de marketing da Adobe…). E o Yahoo! também está nessa. De qualquer forma, pelo bem do SEO do site, evite Flash.

O que chama a atenção dentre os tipos de arquivo é o PDF, pois, além de ser indexado, ele tem um valor de PageRank atribuído e os search bots seguem os links em documentos PDF. Uma característica peculiar do PDF, que eu acredito ser a razão de ele ter um PageRank atribuído, é o fato de poder ser usado um navegador/browser para visualizar um documento PDF – diferente de arquivos DOC ou PPT, que embora sejam indexados, é difícil saber se possuem ou não PageRank, mas é provável que tenham seus links seguidos, uma vez que os search bots conseguem identificar o texto nesses documentos.

Por Fim

Demais extensões de arquivo também tem o seu download feito por parte dos search bots, pois eles tentam identificar o conteúdo, mas se nada útil for encontrado, então os search bots descartam o arquivo e o download. Outro ponto interessante é que os searchbots, ou o Googlebot pelo menos, identificam vírus nos arquivos que encontram e, naturalmente, descartam o arquivo. Mas, de modo geral, qualquer arquivo com conteúdo em texto pode ser indexado.

Qualquer dúvida, deixe um comentário ou entre em contato com a gente por email. Não deixem de assinar o nosso feed e participar da promoção que leva você ao SMX São Paulo. Abraços e até a próxima!

Receba Novidades

Insira seu email para receber novidades e dicas exclusivas da Agência Mestre!
Divulgue este artigo

4 Comentários para “SEO e Tipos de Arquivos”

  1. Walmar Andrade

    Uma dica válida é não alterar o final de extensões, como as .php, para parecer que é uma linguagem exclusiva da sua empresa (por exemplo, a empresa XYZ Web trocar o final das extensões para .xyz).

    Além de prejudicar o SEO, um usuário mais experiente pode relutar em clicar em um link que termina com uma extensão desconhecida.

    Responder
  2. Frank Marcel

    E aí Walmar! Bem observado, também tem esse lado da segurança do usuário. Ele se sente mais confiante quando vê páginas com extensões conhecidas, ou sem nenhuma, como também é comum em blogs.

    Responder
  3. Ivan

    Olá!

    Quanto a estrutura da URL, o que ficaria melhor para o Google ?

    meusite.com.br/23/artigo-sobre-seo

    meusite.com.br/23/artigo-sobre-seo/

    meusite.com.br/23/artigo-sobre-seo.html

    Sendo que o projeto está em MVC, e ele faria o select do artifo pela ID 23 que está na URL.

    Muitos usam o .html (G1, Yahoo…) ela beneficia ?

    Abraço…

    Responder
  4. Frank Marcel

    O melhor seria não ter o ID. No mais, com ou sem barra, com ou sem .html, tanto faz, desde que não seja possível acessar a URL por todas as formas, pois seria conteúdo duplicado.

    Você encontra mais informações sobre URLs no artigo de Otimização de URLs.

    Responder

Deixar um comentário

  • (não será publicado)

XHTML: Você pode usar estas tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>