Como projetar interfaces de voz?

Como projetar interfaces de voz?

Fonte: imagem criada pelo chatGPT com prompts do redator.

 

O campo da interface de usuário para voz vem crescendo rápido, o que nos obriga a pensar em interfaces apropriadas a esse contexto

 

Redator: Heitor Augusto Colli Trebien

 

As interfaces de voz (ou VUIVoice User Interface) mudaram o jeito como a gente se comunica com os computadores ou máquinas. Craig (2020) explica que, apesar dessa tecnologia existir há alguns anos, só agora é que estamos percebendo o seu real potencial.

Quando pensamos em interface, geralmente imaginamos uma tela cheia de botões ou coisas para clicar e arrastar. Mas com a interface de voz é diferente: você só precisa falar. É como ter uma conversa com a máquina.

Craig (2020) cita que grandes empresas como Apple, Amazon e Google já facilitaram várias tarefas do dia a dia com comandos de voz simples, como pedir uma música, checar o clima ou marcar um alarme. Outras empresas estão indo pelo mesmo caminho, usando esses assistentes ou até criando suas próprias soluções com voz.

Na hora de criar qualquer tipo de interface, seja para um site ou aplicativo, precisamos pensar em várias coisas — como quem vai usar e como garantir que tudo funcione bem. O mesmo vale para interfaces de voz: quem desenvolve esse tipo de sistema também deve pensar em como deixar tudo bem natural e fácil, quase como se a máquina entendesse você de primeira.

 

Pense: quem vai usar meu aplicativo/ferramenta?

 

Quando criamos uma interface de voz, devemos refletir sobre quem vai conversar com o sistema, como pensam nesse contexto, e como se comunica no dia a dia. Nossa linguagem deve se adequar às situações em que a pessoa está. 

No entanto, essa tarefa não é simples, pois é comum precisarmos pensar em vários tipos de público ao mesmo tempo, pois atendemos diferentes pessoas que possuem uma diversidade de pensamentos.

Por exemplo, imagine que estamos criando um sistema para reservar passagens de avião usando só a voz. Precisamos entender bem quais são os passos que a pessoa seguiria pra fazer isso — em qualquer site ou aplicativo. Depois de entender esse processo, podemos adaptar nosso sistema para funcionar com comandos de voz. 

Craig oferece um exemplo de conversa para um atendente de voz de passagens de avião: 

 

Usuário: Reserve um voo de São Paulo para Curitiba no dia 13 de outubro.

Voicebot: Sua viagem será de ida ou ida e volta?

Usuário: Ida e volta.

Voicebot: Certo. Encontrei três boas opções de voo. A mais barata custa R$121 e tem duração de duas horas. Deseja reservar essa opção?

Voicebot: Sim.

 

Notamos aqui como a conversa foi natural: o bot sabia como continuar o diálogo, como se estivesse dentro do próprio contexto. Nessa conversa, como Craig (2020) aponta, não há instruções específicas. O bot simplesmente dá continuidade ao diálogo de modo intuitivo. Na prática, os comandos instrutivos, apesar de ajudarem os desenvolvedores, podem ser esquecidos pelos usuários, o que pode criar empecilhos na comunicação. 

Muitas mensagens, comuns no Brasil, seguem esta estrutura: 

 

“Para ouvir a mensagem novamente, digite 1; para responder à mensagem, digite 2; para apagar a mensagem, digite 3.”

 

A mensagem em si não está errada, no entanto, não representa uma linguagem natural, utilizada no cotidiano. Além disso, Craig aponta que em muitos casos pode gerar confusão. O sistema nos ensina os comandos que devemos seguir, o que nos obriga a pensar o que precisamos fazer, e não realizar a ação em si, mesmo quando já sabemos o que queremos. Por exemplo, se não entendi a mensagem, simplesmente pediria para repetir, sem precisar pensar na tecla 3.

Craig (2020) ainda menciona que, o principal problema que essa pode causar é o usuário querer passar rápido pelo bot para ser atendido por um humano. Muitas vezes passa tão rápido pelas instruções e não presta atenção nelas, apesar de serem simples. Acaba gerando o sentimento de: “não quero conversar com o bot” ou “passe logo para um especialista”. 

Mas devemos ressaltar que uma conversa natural é tão difícil quanto a estruturada, na verdade, ela é mais complexa, e em alguns casos pode dificultar o trabalho dos desenvolvedores. Pode até tornar mais difícil para o usuário atingir seu objetivo, caso não seja bem programada.  

 

Uso de linguagem natural para atingir objetivos

 

Como Craig (2020) aponta, a linguagem natural é a fala que utilizamos no dia a dia para conversar. Ela não exige planejamento ou elaboração consciente — simplesmente flui de maneira espontânea. Incorporá-la em interfaces de voz proporciona uma experiência mais intuitiva e fluida para os usuários.

Entretanto, o domínio da linguagem natural demanda recursos avançados de linguística, como a pragmática, a semântica e a computacional. Por esse motivo, ainda é comum encontrarmos exemplos pouco eficazes de sua aplicação. 

O que torna a comunicação natural tão complexa são os pressupostos implícitos: precisamos saber, pelo contexto, as possibilidades de ação que o usuário poderia tomar. Nesse sentido, as mensagens clássicas instrutivas cumpriram bem seu papel, mas não conseguem usar uma linguagem natural para gerar uma interação intuitiva. 

Em alguns casos, inclusive, pode ser benéfico integrar as duas estratégias, para que o caminho a ser percorrido seja mais fácil de ser atingido. No entanto, as estratégias a serem utilizadas em determinado contexto exigem experiência, prática e atualizações constantes.

 

Estratégias que podemos usar para tornar a linguagem mais atrativa e natural 

 

Para Craig (2020), respostas curtas e simples podem nos ajudar a desenvolver uma interação mais natural. Curto, curto e simples nesse caso não é usar o mínimo possível, mas o essencial para a pessoa compreender a demanda. 

Temos o exemplo do agente de viagem digital, quando ele diz:  “Sua viagem será de ida ou ida e volta?”. Ela é o suficiente para compreendermos o contexto, sem muitos rodeios. 

A partir dela, pode-se criar diversos estilos de linguagem para adequar ao modo de comunicação da sua empresa. 

Craig destaca que precisamos evitar a sensação de estar sobrecarregado pelo excesso de informações. Por exemplo, podemos encontrar 50 vôos diferentes pelo site de viagens. Se jogarmos todas as possibilidades em uma conversa, não conseguimos finalizá-la. 

Algo semelhante ocorre com as mensagens de cobrança. Muitas vezes, os usuários têm diversas contas a pagar de diferentes planos. O ideal seria apontar que existem cobranças em seu nome e redirecionar para negociação. 

Em alguns casos, a mensagem escrita poderá ser benéfica, pois a pessoa poderá ver quais dívidas em aberto ela quer finalizar primeiro. Ou então, se precisar manter por voz, apresentar uma dívida de cada vez para o usuário responder mais naturalmente. 

 

Seja prestativo quando não conseguir solucionar o problema

 

Como Craig (2020) aponta, em alguns casos, a realização de uma tarefa específica pode não ocorrer conforme a expectativa do usuário. Por exemplo, pode não haver voos disponíveis para as datas selecionadas.

Em vez de encerrar a interação de forma abrupta com uma mensagem como “Desculpe, não há voos disponíveis”, o ideal é reformular a resposta. Dessa forma, o sistema pode buscar datas alternativas e apresentar sugestões úteis ao usuário:

 

“Não encontrei voos disponíveis para o dia 4 de agosto, mas há opções para os dias 3 e 5. Deseja reservar dessas datas?”

 

Essa abordagem torna a experiência mais agradável e demonstra proatividade por parte do sistema, incentivando a continuidade da interação. Caso a pessoa não queira, o ideal é ser polido e convidativo, para que a pessoa volte a conversar novamente com o voicebot. 

 

“Agradecemos pela preferência, quando precisar de algum vôo, por favor, entre em contato para acharmos as melhores soluções.”

 

Ou você pode utilizar outra linguagem que esteja alinhada ao modo de falar da sua empresa. Cada uma tem um tom próprio, seja mais formal ou informal, técnico ou coloquial, divertido ou sério, entre outros tons. Para conhecer um pouco mais sobre tons de voz, leia nossos textos: 

 

  1. As quatro dimensões de tons de voz em interações digitais.
  2. A interação com humanos digitais por meio das 4 dimensões de tons de voz.
  3. A construção da personalidade em bots e humanos digitais.

 

Considere os limites da tecnologia

 

Apesar de todas as boas intenções, pesquisas e testes, o design de interfaces de voz ainda enfrenta limitações impostas pela própria tecnologia.

O sistema será capaz de reconhecer diferentes sotaques, palavras, expressões ou até mesmo gírias? Craig (2020) aponta que avanços na área de inteligência artificial, como o processamento de linguagem natural (baseado em aprendizado de máquina), têm contribuído significativamente para que desafios como esses se tornem cada vez menos relevantes.

Empresas como Microsoft, Amazon e Intel investiram no desenvolvimento de processadores mais eficientes, voltados especificamente para aplicações baseadas em voz. Essa tecnologia promete representar um avanço considerável no desempenho de dispositivos com escuta contínua, conhecido como always-on, tornando as interações ainda mais rápidas e precisas.

Na Velip, criamos uma plataforma para atender a diversas demandas de voz. A empresa, seja ela qual for, precisa desenvolver um fluxo, e depois disso ela pode usar a nossa plataforma para colocá-lo em prática. 

Podemos ajudar a voz da sua empresa a chegar em diversos lugares, por meio de SMS, WhatsApp, torpedo de voz e agentes de IA (chat e videobots).

Entre em contato para conhecer um pouco mais sobre os nossos produtos e como eles podem ajudar o seu negócio a prosperar por meio da voz.

 

Velip, ecoando sua voz por novos caminhos. 

 

Referência

 

Michael Craig. How to design for voice UI. WixStudio, 28 dez. 2020.