Expressões Regulares nos Relatórios de Keywords do GA

regex nos relatorios do google analytics

Na semana passada passamos montamos uma introdução sobre o uso de expressões regulares no Google Analytics, onde abordamos a sintaxe das expressões regulares, demos alguns pequenos exemplos de expressões e dicas sobre como testá-las. Mas qual o motivo dessas análises? O motivo dessa série de artigos é o fato de que praticamente todos os relatórios do Google Analytics suportam expressões regulares (não todas as sintaxes, mas uma grande parte delas).

Neste artigo vamos dar alguns exemplos de como utilizar expressões regulares nos relatórios de keywords de entrada do GA e facilitar algumas análises do tráfego do seu site.

Os relatórios de keywords de entrada estão disponíveis em Traffic Sources -> Keywords (ou, em Português: Fontes de tráfego -> Palavras Chave) e sua análise é uma maneira interessante de verificar o comportamento dos usuários para diferentes grupos de keywords. Dois exemplos de segmentações bastante úteis:

  1. Short e long tails
  2. Keywords com a marca x keywords sem a marca

Short e Long Tails

Diz-se que as long tails geralmente trazem mais conversões que as short tails – mas como visualizar a diferença entre o comportamento dos usuários que encontram o site por short tails em comparação com os usuários que o fazem através de long tails? Ou ainda, como descobrir quais long tails são interessantes para o meu negócio?

Para segmentar o tráfego em long e short tails, basta utilizar as seguintes expressões:

  • Short tails (uma ou duas palavras): ^ ?(\S+ ?){2}$
  • Long tails (três ou mais palavras): ^ ?\S+ \S+ (\S+ ?)+$

Mas o que essas expressões significam?

Na duas expressões, os símbolos ^ e $ estão indicando o começo e o final da expressão regular, respectivamente.

Afim de compreender melhor a primeira expressão, de short tails, vamos dividí-la em três partes:

  • ‘ ?’ : Significa que os conjuntos de caracteres que podem ou não começar com um espaço em branco.
  • ‘(\S+ ?)’ : Essa expressão diz para que sejam capturados termos formados por qualquer caracter que não sejam espaços em branco e que cada um desses termos devem ser formados por, pelo menos, um caracter.
  • ‘{2}’ : Significa que o conjunto anterior deverá se repetir 1 ou 2 vezes.

Ou seja, juntando as três partes da expressão, é o mesmo que dizer: pegue todas as expressões que podem ou não começar com espaço em branco, formadas por duas ou menos palavras.

Vamos realizar o mesmo processo com a segunda expressão, de long tails:

  • ‘ ?’ : Mesmo significado da expressão de short tails.
  • ‘\S+ \S+ ‘ : Significa dois termos formados por qualquer caracter que não sejam espaços em branco; cada um dos termos deverá ser formado por – pelo menos um caracter; os dois termos deverão estar separados por um espaço em branco e toda a expressão também vai terminar por um espaço em branco.
  • ‘(\S+ ?)+ ‘ : Significa um ou mais termos formados por qualquer caracter que não seja um espaço em branco. O último termo da série poderá ou não terminar com um espaço em branco.

Agrupando as três expressões temos uma expressão regular que equivale ao padrão formado por três ou mais termos; onde cada um deles é formado por qualquer caracter que não seja um espaço em branco; separados por espaço em branco. O resultado pode ou não conter um espaço em branco no começo (e/ou final).

Mas será que essas expressões regulares funcionam?

Da mesma maneira que na semana anterior, vamos utilizar como exemplo os resultados obtidos através da ferramenta RegexPal – que consiste em um “testador” de expressões regulares, online e gratuito.

Supondo a lista de keywords de entrada:

lista de keywords

Utilizando a primeira expressão regular, obtemos o seguinte resultado:

teste de short tails

Onde as keywords assinaladas correspondem aos termos marcados como short tails segundo a primeira expressão. Ao testar a segunda expressão regular, obtemos o seguinte resultado:

teste de long tails

Ao utilizar o Google Analytics obtemos os mesmos resultados. Vale lembrar que, apesar de termos obtido o mesmo resultado no GA e no RegexPal, é interessante testar suas expressões também no GA – de maneira a ter certeza que sua expressões regulares estão funcionando adequadamente nas duas ferramentas.


Keywords com a Marca x Keywords sem a Marca

Duas segmentações muito úteis é a de tráfego obtido através de keywords com a marca, bem como o tráfego de keywords obtidos sem a marca. O uso de expressões regulares pode facilitar, e muito, e elaboração desses segmentos. Mas, por quê? Porque, por mais simples que uma marca seja, o usuário pode encontrar o site através das mais diversas variações da marca e o uso de expressões regulares pode auxiliar na hora de encontrar essas possíveis variações.

Por exemplo, a marca “Giuliana Flores”, tem como alguns possíveis termos de entrada:

  • giuliana flores
  • jiuliana flores
  • juliana flores
  • guiliana flores

Onde sublinhamos as variações apenas um termo da marca, o “Giuliana”.

Uma possível expressão regular que pode representar termos possuem um dos termos acima é: (g|j)(i?)uliana. Divindo essa expressão, temos:

  • (g|j): Esse trecho da expressão diz que pode ter um ‘g’ ou um ‘j’.
  • (i?): Esse trecho da expressão diz que pode ou não possuir o caracter ‘i’.
  • uliana: Esse trecho da expressão diz que a palavra deverá conter a expressão ‘uliana’

Utilizando essa expressão no filtro, temos algumas das keywords de entrada:

keywords de entrada: giuliana-flores

Para fazer o filtro por keywords que não contém a marca, basta trocar o “containing” assinalado na figura acima por “excluding”.

Entretanto, como é possível reparar, a expressão utilizada não pegou os termos relacionados ao erro de digitação “guiliana”- o qual é um erro bastante frequente. Nesse caso, podemos tornar a expressão mais completa, da seguinte maneira: (g|j)(i?)u(i?)liana. Dividindo essa expressão, temos:

  • (g|j): Esse trecho da expressão diz que pode ter um ‘g’ ou um ‘j’.
  • (i?): Esse trecho da expressão diz que pode ou não possuir o caracter ‘i’.
  • u: Esse trecho da expressão diz que deve conter o caracter ‘u’
  • liana: Esse trecho da expressão diz que a palavra deverá conter a expressão ‘liana’

Utilizando esse filtro, temos a seguinte lista de resultados:

keywords de entrada

Onde destacamos os termos relacionados ao erro de digitação “guiliana”.


Conclusão

Como já vimos, o uso de expressões regulares nos reports do GA podem ser muito úteis para facilitar a segmentação do tráfego. Quanto as keywords de entrada, neste artigo entendemos as expressões regulares utilizadas nos segmentos:

  • long tails x short tails
  • keywords com a marca x keywords sem a marca

Vale lembrar que é possível também comparar o comportamento dos usuários que chegam até o site para os mais variados grupos de keywords (por exemplo, keywords que contém palavras de ação x keywords informativas), bastando apenas elaborar expressões regulares especiais para o caso de cada grupo de keywords.

Ficou alguma dúvida sobre as expressões apresentadas nesse artigo, teve algum problema com os testes ou, ainda, quer fazer uma segmentação diferente das apresentadas? Entre em contato através dos comentários.

Receba Dicas Exclusivas Sobre Web Analytics

Quer aprender a mensurar suas visitas e conversões de maneira correta? Então, cadastre seu e-mail!
Divulgue este artigo

5 Comentários para “Expressões Regulares nos Relatórios de Keywords do GA”

  1. alvimar

    Isso ae Fabiane, gostei do asssunto, pouco difundido, mesmo não sabendo programar, acho muito interessante esse lance de manipulação e recuperação de dados. Parabéns!

    Responder
  2. Daniel

    Olá Fabiane,

    Muito bom o seu artigo, mas de fato ainda não encontrei o real valor de comparar short tail com long tail. Criei os segmentos avançados e constatei que o tráfego vindo de long tails é 5x maior que o tráfego das short tails. Algo que já era de se esperar devido a cauda longa. Minha análise parou por aí e gostaria de saber de você o que mais poderia ser retirado disso.

    Muito obrigado,
    Daniel Cardoso.

    Responder
    • Fabiane Lima

      Olá, Daniel

      Geralmente as long tails, além de trazer mais tráfego, também convertem mais. No mais, somente a análise do conjunto de long tails não é tão produtiva, mas ela aliada a dados referentes a essas long tails (como conversões de cada uma) será mais produtiva.

      Responder
  3. Mauricio

    Bom dia Fabiane, tudo bem?

    Muito bom mesmooo seu artigo e gostaria de pedir uma ajudinha também:

    Como faço para alterar uma data com ano de 2 dígitos para 4?
    Ex: 30/05/11 para 30/05/2011 ?

    Grato

    Responder

Deixar um comentário

  • (não será publicado)

XHTML: Você pode usar estas tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>