Os benefícios do texto e da imagem em sistemas artificiais comunicativos

Momentos em que o texto pode ser melhor do que a voz em sistemas artificiais de atendimento

Fonte: imagem produzida pelo ChatGPT com prompts do redator.

 

A voz é um instrumento muito prático no atendimento ao cliente, no entanto, em alguns momentos o texto e a imagem podem ser soluções eficazes 

 

Redator: Heitor Augusto Colli Trebien

 

Negociações ou interações que envolvem múltiplas perguntas 

 

Sabemos que a tecnologia de reconhecimento e interpretação de fala está melhorando exponencialmente, no entanto, como Laura (2015) afirma, ainda enfrentamos problemas ao conversar com uma máquina. 

As interações, hoje, com as inteligências artificiais generativas (como ChatGPT e Gemini) envolvem uma diversidade de demandas complexas. Claro, não significa dizer que as IAs generativas acertam tudo. 

Muita coisa elas inventam, o que nos leva ao problema de atenção e veracidade: se estivermos desatentos, muita informação falsa pode ser compartilhada. Por exemplo, ao conversarmos com um dispositivo como a Alexa, se pedirmos para ouvir uma música que não existe, ela pode perguntar se você quer criá-la. 

Em seguida, vocês podem criar juntos uma nova música, mas, se você quiser algo mais simples, como pular uma música, aumentar o volume ou mudar de canal, essas ações são completamente diferentes, exigindo que o sistema as processe e execute separadamente (Laura, 2015).

Em alguns casos, conversas mais longas — que envolvem múltiplas trocas ou negociações — nem sempre são boas candidatas para entrada por voz, a menos que sejam divididas em partes. Do contrário, podem causar problemas na compreensão do sistema.

Como observa Laura (2015), agendar uma única consulta médica costuma ser simples — ainda que muitas vezes irritante — com uma interface de voz. Contudo, organizar uma série de reuniões interdependentes, em que cada etapa depende de decisões anteriores, poderia ser problemático. Por outro lado, fazer isso visualmente, selecionando datas em um calendário, pode ser feito com bastante facilidade.

 

Grandes volumes de entrada e saída de dados

 

Em contextos que envolvem grandes volumes de dados, a entrada e saída por voz podem ser mais lentas do que o texto — especialmente quando a maior parte desses dados será ignorada. 

Por exemplo, Laura (2015) comenta que pode ser mais fácil falar o tipo de lugar que você está procurando – como um restaurante de sushi em São Paulo. No entanto, ter todos os resultados lidos em voz alta seria muito demorado e ninguém ouviria até o final. 

Neste caso, escolher vários itens de uma lista é muito mais rápido quando você pode vê-los e tocar para selecionar a opção desejada, em vez de ter que dizer ao dispositivo o que quer. 

Quando se lida com grandes quantidades de entrada ou saída, as interfaces visuais tendem a ser mais práticas às de áudio ou voz. Isso também é verdade ao lidar com a entrada e saída de texto. 

Mesmo que algumas pessoas sejam excelentes em ditar seus pensamentos, é preciso bastante prática para conseguir falar com precisão um e-mail inteiro sem precisar voltar e editá-lo depois. 

Textos curtos e respostas de e-mail funcionam muito bem com entrada por voz — mas há um motivo pelo qual este artigo foi escrito com um teclado: é mais fácil para a maioria das pessoas.

 

Input cuja descrição é pouco prática

 

Alguns exemplos de linguagens ou jargões, como os da matemática e da química, são mais fáceis de descrever do que digitar. No entanto, também existem conceitos que podem ser difíceis de descrever em voz alta, mesmo que sejam simples de representar visualmente.

Ainda que as interfaces de voz possam oferecer diversas formas de facilitar a interação com televisores inteligentes, como Laura (2015) destaca, dificilmente alguém escolheria ajustar o equilíbrio de cores por meio de descrições verbais.

Da mesma forma, é pouco provável que você quisesse ajustar os espelhos laterais do carro apenas falando com ele. O fato de a entrada por voz funcionar bem para certas interações em um contexto específico não significa que seja adequada para todas as situações.

 

Comparar conjuntos de informações complexas

 

Outra área em que as interfaces de voz podem falhar é na comparação de listas de vários itens. Imagine quatro computadores ou smartphones diferentes dispostos em uma prateleira ou website, exibindo seus recursos e preços — uma interface simples e fácil de compreender. Agora imagine, em contraste, todos esses itens sendo lidos para você por um computador.

Mesmo que a quantidade de dados não seja muito grande, o usuário ainda precisa ouvir e reter várias opções ao mesmo tempo — algo que se torna difícil, especialmente na ausência de pistas visuais.

Há uma razão pela qual as lojas exibem modelos, etiquetas e fichas de produto, além de contarem com vendedores. Certas informações são mais fáceis de compreender visualmente e não devem ser forçadas a caber em uma conversa — especialmente com um computador.

Cada momento pode ser melhor comunicado em diferentes mídias, como voz, imagem e texto. O ideal é termos à disposição uma tecnologia que comporte todas as opções, para estarmos preparados para qualquer situação. 

 

Referência

 

Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.