Ferramentas

GPTBot: Conheça o Rastreador Web do ChatGPT

Por Raquel Pereira

Entenda como o GTPBot funciona e se você deve ou não impedir que o seu site seja rastreado pelo chatbot da OpenAI.

Raquel Pereira

Essa semana (07 de agosto), a OpenAI anunciou algumas informações interessantes sobre seu rastreador web do ChatGPT, o GPTBot. Confira o que foi publicado pela startup:

O que é e como funciona o GPTBot?

Conforme publicado pela OpenAI:

“O GPTBot é o rastreador da Web do OpenAI e pode ser identificado pelo seu agente de usuário e string.”

Ou seja, esse é o mecanismo utilizado pela startup para rastrear a internet, consumir conhecimento para alimentar seus recursos de IA (por exemplo, o ChatGPT) e fornecer respostas geradas por IA para perguntas ou prompts em seus sistemas.

Segundo publicado pela startup, as páginas da web que são rastreadas com o agente do usuário GPTBot (mais informações adiante neste artigo), podem potencialmente ser usadas para melhorar modelos futuros. 

As páginas acessadas pelo agente são filtradas para remover fontes que exigem acesso pago (como portais de notícias e outras fontes que exigem assinatura), páginas que são conhecidas por coletar informações de identificação pessoal (PII) ou aquelas que contenham textos que violem as políticas da OpenAI.

Agente do GPTBot

O token do agente do usuário do GPTBot é “GPTBot” e sua string completa de agente de usuário é: “Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +https://openai.com/gptbot)”.

Como impedir que o GPTBot do ChatGPT rastreie seu site

Conforme compartilhado pela OpenAI, para impedir que o GPTBot acesse seu site, basta adicionar o GPTBot ao robots.txt do seu site com a seguinte informação:

User-agent: GPTBot
Disallow: /

Posso permitir que o ChatGPT acesse parte do meu site?

Sim! Para que o GPTBot acesse APENAS partes específicas seu site, é necessário adicionar o token do rastreador ao robots.txt do seu site da seguinte forma:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Dessa forma, você pode personalizar o acesso que o rastreador do chatbot tem ao seu site, podendo ocultar páginas específicas assim como é feito com o rastreador do Google, por exemplo.

A startup também publicou quais são os intervalos de IP que o GPTBot usa. Até o momento, a lista apresenta apenas um, mas é provável que logo sejam adicionados mais intervalos, conforme o GPTBot vai sendo mais utilizado.

OpenAI pede que donos de sites permitam o uso do GPTBot

Assim como o GoogleBot e o BingBot, o GPTBot é a principal forma do ChatGPT coletar informações na internet para fornecer informações e respostas relevantes para os usuários. Em sua documentação oficial sobre o rastreador web, a OpenAI comenta que isso pode ajudar os modelos de IA a melhorar suas capacidades gerais e de segurança:

“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança.”

Uma dúvida que pode surgir com esse lançamento é: devo bloquear o GTPBot?

O vice-presidente sênior de SEO da Razorfish, Ryan Jones, escreveu sua opinião no portal Search Engine Land explicando porque acredita que os profissionais de SEO e donos de sites NÃO devem impedir o rastreador web do ChatGPT de operar em seus sites.

O especialista recomenda que nenhuma tecnologia seja “impedida” de acessar informações públicas do seu site (como seus conteúdos, artigos, páginas de materiais ricos, etc), sem que haja informações suficientes para comprovar que seu uso é prejudicial para o seu site.

Especificamente sobre o GTPBot, Jones reforça que, até onde sabemos, o ChatGPT não opera como um mecanismo de busca. Dessa forma, utilizando o GPTBot para mapear informações e alimentar seus próprios plug-ins, a OpenAI pode tornar o chatbot em uma nova fonte de tráfego para o seu site:

“A OpenAI diz que citará as fontes quando os plug-ins extraírem dados de sites de terceiros. Isso significa que definitivamente haverá potencial para obter cliques do ChatGPT se um usuário acessar seu conteúdo. Bloquear o acesso significa apenas que o ChatGPT (ou seu usuário) citará o site de outra pessoa.”

Extraia o melhor do ChatGPT

Independentemente de permitir ou não que o ChatGPT rastreie o seu site, é interessante considerar essa alternativa para aumentar as chances de receber tráfego orgânico e qualificado para o seu site.

Mas, claro, para produzir conteúdos que estejam alinhados com as pesquisas realizadas no chatbot, é crucial entender como ele funciona e quais as oportunidades que ele oferece.

Nós temos um curso completo para você que quer se tornar um especialista no chatbot mais famoso do mundo. Conheça o “Mestres do ChatGPT” e descubra como você e a sua equipe podem utilizar o ChatGPT em seu potencial máximo e otimizar a rotina do seu negócio.

LEIA MAIS

Google Trends: Descubra Tendências de Busca

Saiba o que é e como utilizar o Google Trends, uma ferramenta que irá ajudar você a descobrir novas palavras-chave a serem exploradas. Confira!

Melhores Ferramentas de SEO Para Otimizar o Desempenho do Seu Site

Confira aqui uma lista completa com mais de 50 ferramentas de SEO que irão ajudar você a conquistar as melhores posições nos mecanismos de busca!

O Que Todo Profissional de Mídia Deve Saber Sobre Machine Learning e IA

Neste artigo você vai descobrir o que todo profissional de mídia precisa entender sobre machine learnig e inteligência artificial!

Já pensou em fazer parte do nosso time de mestres?