Ferramentas

Assistente de IA do ChatGPT: Novos Recursos da Ferramenta Reconhecem Voz e Imagens

Por Raquel Pereira

Confira os novos recursos do ChatGPT e descubra como utilizá-lo como seu próprio assistente de IA que pode ouvir, ver e falar.

Raquel Pereira

Será o fim do “Hi, Siri”? A OpenAI acaba de anunciar (25 de setembro), a inclusão de novos recursos multimodais no ChatGPT para torná-lo em um assistente virtual alimentado por IA.

“Estamos começando a implementar novos recursos de voz e imagem no ChatGPT. Eles oferecem um tipo de interface novo e mais intuitivo, permitindo que você tenha uma conversa por voz ou mostre ao ChatGPT o que você está falando.”

Confira os detalhes sobre essa novidade e saiba como utilizá-la no seu dia a dia.

ChatGPT agora pode ouvir, ver e falar

Conforme anunciado pela OpenAI nesta segunda-feira (25), o ChatGPT está sendo expandido com novas funcionalidades multimodal que reconhecem a voz do usuário, pode retornar suas respostas de forma audível e é capaz de identificar recursos de imagens.

Segundo a startup, essas mudanças vão tornar o chatbot mais intuitivo, permitindo diversas formas de comunicação para exemplificar e especificar seus comandos à ferramenta.

“Voz e imagem oferecem mais maneiras de usar o ChatGPT em sua vida. Tire uma foto de um ponto de referência enquanto viaja e converse ao vivo sobre o que há de interessante nele.”

Basicamente, com a mudança, a OpenAI pretende tornar o ChatGPT em um assistente virtual como a Siri da Apple e a Alexa da Amazon, com recursos de reconhecimento de voz chegando nas próximas semanas aos aplicativos móveis do ChatGPT para Android e iOS.

Como a Assistente Virtual do ChatGPT vai funcionar?

Como as demais ferramentas de assistente virtual que conhecemos hoje (Google Assistente, Alexa, Siri, etc), a funcionalidade do ChatGPT poderá ser acionada por voz. No entanto, os usuários também terão acesso a um recurso semelhante ao Google Lens, no qual poderão compartilhar imagens tiradas em tempo real para tirar dúvidas.

Confira como a ferramenta será acionada em cada uma delas:

Entradas e Saídas de Áudio no ChatGPT

A entrada de voz do ChatGPT poderá ser acionada sempre que o usuário estiver próximo ao seu dispositivo móvel com o aplicativo do ChatGPT. O objetivo é que a conversa seja fluída, como se você estivesse enviando e recebendo mensagens de áudio em uma conversa no WhatsApp, por exemplo:

(Imagens: OpenAI | Reprodução)

“Use a voz para participar de uma conversa de ida e volta com seu assistente.”

A OpenAI explica que, assim que estiver disponível, os usuários poderão habilitar a função de áudio acessando “Configurações” > “Novos Recursos” e “Conversas por Voz”. Além disso, o usuário pode escolher a voz de resposta do chatbot entre cinco personalidades diferentes.

“O novo recurso de voz é alimentado por um novo modelo de conversão de texto em fala, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de fala de amostra. Colaboramos com dubladores profissionais para criar cada uma das vozes.”

A startup também afirma que o sistema de reconhecimento de voz da ferramenta (Whisper), transcreve as palavras do usuário em texto.

Buscas com Imagens no ChatGPT

O novo recurso de imagens na ferramenta é muito semelhante ao Google Lens, como comentado anteriormente. Basicamente, o usuário pode abrir a câmera do seu dispositivo móvel e tirar uma foto de determinado problema, objeto ou informação que complemente seu prompt e ajude a elaborar uma resposta mais precisa do chatbot.

(Imagens: OpenAI | Reprodução)

A ferramenta pode analisar gráficos, identificar itens em uma imagem e, caso seja do interesse do usuário, ele pode selecionar uma área específica da imagem para ser analisada desenhando ao redor dela com a ferramenta de pincel.

“Para começar, toque no botão de foto para capturar ou escolha uma imagem. Se você estiver no iOS ou Android, toque primeiro no botão de mais. Você também pode discutir várias imagens ou usar nossa ferramenta de desenho para orientar seu assistente.”

Segunda a startup, esse recurso é alimentado pelo GPT-3.5 e GPT-4, que aplicam suas habilidades de raciocínio para entender as imagens e analisá-las de acordo com a sua necessidade.

Quando este recurso estará disponível?

A OpenAI avisa em seu anúncio que os recursos de imagem e voz estão sendo implementados gradualmente e reforça que seu objetivo é construir uma AGI (Inteligência Artificial Generativa) segura e benéfica.

“Acreditamos em disponibilizar nossas ferramentas gradualmente, o que nos permite fazer melhorias e refinar as mitigações de risco ao longo do tempo, ao mesmo tempo em que preparamos todos para sistemas mais poderosos no futuro.”

A startup lembra que, apesar de muito úteis para o dia a dia das pessoas, esses recursos podem ser utilizados por agentes mal intencionados e, portanto, estão sendo testados e avaliados antes de um lançamento global.

Os usuários do ChatGPT Plus e ChatGPT Enterprise começarão a ter acesso aos recursos nas próximas duas semanas – início de outubro – conforme compartilhado pela OpenAI. No entanto, a startup alerta que, inicialmente, o recurso pode ser impreciso para idiomas além do inglês, especialmente aqueles com escrita que não derivam do romano.

Torne-se em um mestre do ChatGPT!

A OpenAI está avançando para tornar o ChatGPT em uma ferramenta indispensável no dia a dia das empresas e, para aqueles que querem se adequar ao futuro, este é o momento ideal para desenvolver suas habilidades com o chatbot mais popular do mundo e se tornar um profissional mais capacitado para o futuro.

Conheça o Mestres do ChatGPT, nosso curso completo sobre o uso de IA no meio digital, e aprenda com nosso CEO, Fabio Ricotta, como se tornar um verdadeiro mestre em sistemas de IA do ChatGPT.

LEIA MAIS

Google Trends: Descubra Tendências de Busca

Google Trends: Descubra Tendências de Busca

Saiba o que é e como utilizar o Google Trends, uma ferramenta que irá ajudar você a descobrir novas palavras-chave a serem exploradas. Confira!

O Que Todo Profissional de Mídia Deve Saber Sobre Machine Learning e IA

O Que Todo Profissional de Mídia Deve Saber Sobre Machine Learning e IA

Neste artigo você vai descobrir o que todo profissional de mídia precisa entender sobre machine learnig e inteligência artificial!

Melhores Ferramentas de SEO Para Otimizar o Desempenho do Seu Site

Melhores Ferramentas de SEO Para Otimizar o Desempenho do Seu Site

Confira aqui uma lista completa com mais de 50 ferramentas de SEO que irão ajudar você a conquistar as melhores posições nos mecanismos de busca!

Já pensou em fazer parte do nosso time de mestres?