SEO

SEO e Tipos de Arquivos

Por Frank Marcel

Uma dúvida diferente que as pessoas têm quanto a indexação de sites e páginas nas ferramentas de busca na Internet é em relação aos tipos de arquivos que são de fato indexados - PDF, SWF, PHP, JPG, ASP entre outros - e como as search engines tratam esses tipos de arquivo. Elas são capazes, inclusive, de reconhecer vírus na Internet.

Frank Marcel

Uma dúvida diferente que as pessoas têm quanto a indexação de sites e páginas nas ferramentas de busca na Internet é em relação aos tipos de arquivos que são de fato indexados – PDF, SWF, PHP, JPG, ASP entre outros – e como as search engines tratam esses tipos de arquivo.

Primeiro de tudo: os bots não indexam toda URL que encontram na web, eles analisam sim o tipo de URL, o tipo do arquivo apontado pela URL para então tratá-lo. Geralmente, isto está associado ao objetivo da varredura do bot, ou seja, se ele saiu a procura de imagens, links apontando arquivos JPG, GIF, etc., vão interessar; enquanto em uma varredura genérica, ele não costuma baixar imagens e outros arquivos.

Tipos de Arquivos

Os arquivos são separados em alguns tipos, como imagem, texto, áudio, vídeo e outros, sendo identificados pela extensão do arquivo. A extensão de arquivo é o que vem depois do ponto, depois do nome do arquivo:

nome_do_arquivo.extensao

Tipicamente, arquivos com extensão JPG e GIF são imagens, EXE são executáveis (programas, jogos, aplicativos), PDF para o formato de documento do Adobe Acrobat Reader (número 1 para busca “click here“), HTM, HTML, PHP, ASP entre outros para páginas da Internet.

SEO e Tipos de Arquivos

Normalmente a extensão de uma página na web de nada influencia no posicionamento de um site ou de uma página, as search engines apenas verificam o tipo de arquivo, pois quando encontram URLs apontando arquivos com extensão EXE, elas não fazem o download desses arquivos. O mesmo vale para arquivos MP3, AVI, WMA, WMV e outros formatos de áudio e vídeo, pois são arquivos grandes e arquivos cujo conteúdo a search engine não consegue avaliar.

Arquivos com extensões de documentos de web (HTM, HTML, PHP, ASP, …) são seguidos e indexados normalmente. As search engines fazem o download desses arquivos e avaliam o seu conteúdo. Um detalhe aqui: se a search engine não está fazendo uma varredura por busca de imagens, ao baixar um documento de web, ela não faz o download de imagens que estejam nesse documento sempre, pois é pouco provável que a imagem tenha sido trocada, assim a search engine poupa tempo, largura de banda e capacidade de transferência de bytes.

Por outro lado, se a varredura é uma busca por imagens, então a search engine faz o download de imagens com atenção ao texto que está próximo das imagens.

Não posso deixar de citar arquivos em flash: recentemente o Google e a Adobe fizeram o anúncio de que o Google indexa sites em flash agora – Na verdade nenhuma novidade foi publicada, pois eles divulgaram que embora o Google tenha problemas para indexar flash, o que não é novidade, ele consegue indexar alguma coisa (mas foi uma brilhante jogada de marketing da Adobe…). E o Yahoo! também está nessa. De qualquer forma, pelo bem do SEO do site, evite Flash.

O que chama a atenção dentre os tipos de arquivo é o PDF, pois, além de ser indexado, ele tem um valor de PageRank atribuído e os search bots seguem os links em documentos PDF. Uma característica peculiar do PDF, que eu acredito ser a razão de ele ter um PageRank atribuído, é o fato de poder ser usado um navegador/browser para visualizar um documento PDF – diferente de arquivos DOC ou PPT, que embora sejam indexados, é difícil saber se possuem ou não PageRank, mas é provável que tenham seus links seguidos, uma vez que os search bots conseguem identificar o texto nesses documentos.

Por Fim

Demais extensões de arquivo também tem o seu download feito por parte dos search bots, pois eles tentam identificar o conteúdo, mas se nada útil for encontrado, então os search bots descartam o arquivo e o download. Outro ponto interessante é que os searchbots, ou o Googlebot pelo menos, identificam vírus nos arquivos que encontram e, naturalmente, descartam o arquivo. Mas, de modo geral, qualquer arquivo com conteúdo em texto pode ser indexado.

Qualquer dúvida, deixe um comentário ou entre em contato com a gente por email. Não deixem de assinar o nosso feed e participar da promoção que leva você ao SMX São Paulo. Abraços e até a próxima!

LEIA MAIS

Redirecionamento 301 em PHP, ASP, htaccess, Coldfusion e Ruby on Rails

Você quer saber como configurar o redirecionamento 301 no seu site? Veja como e mantenha sua relevância no Google!

Páginas 404 Não Devem Retornar o Código 200 de Status

Hoje em dia é muito comum que página de erro 404 sejam customizadas, mas o trabalho de qualquer profissional de SEO é que estas páginas façam realmente o seu papel. Veja como prevenir que suas páginas de erro 404 causem problemas com os seus rankings.

Como Fazer o Google Encontrar o Seu Site?

Você sabia que existem diferentes formas de ajudar o Google a encontrar o seu site? Coloque nossas dicas em prática e faça seu site aparecer no buscador!

Comentários
  1. Avatar

    Uma dica válida é não alterar o final de extensões, como as .php, para parecer que é uma linguagem exclusiva da sua empresa (por exemplo, a empresa XYZ Web trocar o final das extensões para .xyz).

    Além de prejudicar o SEO, um usuário mais experiente pode relutar em clicar em um link que termina com uma extensão desconhecida.

  2. Avatar

    E aí Walmar! Bem observado, também tem esse lado da segurança do usuário. Ele se sente mais confiante quando vê páginas com extensões conhecidas, ou sem nenhuma, como também é comum em blogs.

  3. Avatar

    Olá!

    Quanto a estrutura da URL, o que ficaria melhor para o Google ?

    meusite.com.br/23/artigo-sobre-seo

    meusite.com.br/23/artigo-sobre-seo/

    meusite.com.br/23/artigo-sobre-seo.html

    Sendo que o projeto está em MVC, e ele faria o select do artifo pela ID 23 que está na URL.

    Muitos usam o .html (G1, Yahoo…) ela beneficia ?

    Abraço…

  4. Avatar

    O melhor seria não ter o ID. No mais, com ou sem barra, com ou sem .html, tanto faz, desde que não seja possível acessar a URL por todas as formas, pois seria conteúdo duplicado.

    Você encontra mais informações sobre URLs no artigo de Otimização de URLs.

Os comentários estão fechados.

Já pensou em fazer parte do nosso time de mestres?