Primeiro, a definição:

Stop words (ou palavras de parada – tradução livre) são palavras que podem ser consideradas irrelevantes para o conjunto de resultados a ser exibido em uma busca realizada em uma search engine. Exemplos: as, e, os, de, para, com, sem, foi.

Claro que, irrelevantes, depende da busca realizada, pois o contexto da busca fará toda a diferença para cada palavra usada na pesquisa realizada.

Mas por que eu estou levantando este tema? Porque muitas pessoas que procuram fazer algum SEO acabam se perguntando sobre a relevância de utilizar stop words em seu conteúdo: títulos, meta description, meta keywords e no conteúdo propriamente.

Antes de prosseguir, é importante entender como as search engines trabalham as palavras de uma frase: dada uma frase, a search engine a quebra em tokens, sendo cada token um subconjunto formado pelas palavras dessa frase. A Nathalia descreveu como funciona este processo em um artigo aqui na Agência Mestre sobre como search engines tratam texto âncora. O exemplo foi:

Suponhamos que o search engine encontre um link com texto âncora “Dez Dicas Rápidas”. Convertendo em tokens:

  • “Dez Dicas Rápidas”
  • “Dez”
  • “Dicas”
  • “Rápidas”
  • “Dicas Rápidas”
  • “Dez Dicas”
  • “Dez Rápidas”

Entendido como são tratadas frases em pesquisas, vamos para o tratamento de stop words e como search engines identificam possíveis stop words.

Stop Words – Como o Google Identifica?

Encontrei um post “antigo” (agosto/08) no site SEObytheSEA que reportava uma patente do Google sobre como a sua search engine pode trabalhar para identificar stop words de acordo com a pesquisa realizada, e ela funciona da seguinte maneira:

  • Para uma dada busca, ela é quebrada em tokens e são montados conjuntos de resultados para tokens contendo as possíveis stop words e sem as possíveis stop word; os resultados obtidos nos conjuntos são comparados, sua similaridade definida e as possíveis stop words identificadas:

diagrama-stop-words1

Complicou? Vamos ver um exemplo: ao realizar a busca “os outros” no Google, o conjunto dos 10 primeiros resultados é composto de:

  • 4, entre os 7 primeiros resultados, sobre o filme “Os Outros”
  • 3 resultados de música
  • 3 resultados de literatura

Por outro lado, a busca por “outros“, retorna em seu conjunto de 10 primeiros resultados:

  • 2 resultados sobre música
  • 2 resultados de vídeos (pe. Fabio de Melo e Kid Abelha)
  • Google Maps
  • 1 sobre o filme
  • mais 5 resultados diversos

Ou seja, o artigo definido “os”, neste caso, é totalmente relevante para o conjunto de resultados apresentado. Por outro lado, comparando o conjunto de resultados da busca “as pérolas da internet” (1) contra o conjunto de “pérolas da internet” (2), nota-se que 7 dos 10 primeiros resultados em (1) estão entre os 10 primeiros em (2) – uma similaridade de 70%. O artigo definido “as” pode ser tratado como uma stop word.

Conclusão

De fato, a patente do Google faz sentido e pode ser que esteja realmente sendo usada, ou, talvez, uma versão bem próxima desta patente garantida o ano passado ao Google. Para saber se um termo pode ser considerado ou não como stop word, é realmente necessário fazer o teste e avaliar o resultado.

Mas tenha sempre em mente que o uso adequado de stop words também influencia a decisão de clique do usuário. Frases mal escritas podem aumentar a rejeição do usuário, conforme eu comentei no meu artigo sobre otimização de palavras escritas de forma errada.

Nos exemplos deste artigo, eu testei somente os primeiros 10 resultados de 2 tokens, o Google pode testar muito mais e definir o grau de similaridade ( 70%, 30%, 90%) como lhe parecer mais apropriado, mas os testes se mostram bem conclusivos. O que você acha? Qual a sua experiência com stop words? Deixe seu recado nos comentários, até a próxima!