O poder da voz na comunicação automática

Combinar os módulos da comunicação para atingir sucesso: o poder da voz

Fonte: imagem produzida pelo ChatGPT com prompts do redator.

 

Existem diversas tecnologias de voz que ajudam na nossa comunicação. Acompanhe os melhores momentos de se usar uma comunicação automática por voz e veja como os outros módulos da comunicação podem ajudar.

 

Redator: Heitor Augusto Colli Trebien

 

Dentre os diversos módulos de comunicação, a voz é um excelente canal, devido a sua praticidade e usabilidade. Entretanto, será que ela sozinha é aplicável em todas as situações? 

Neste texto, iremos focar as interfaces de voz e ponderar como as outras modalidades da comunicação podem contribuir para a comunicação automática. 

 

Interfaces de voz: conversas rápidas e precisas

 

Laura (2015) nos apresenta o exemplo do Dragon Mobile Assistant, um aplicativo projetado pela Nuance Communications em 2012, um concorrente da Siri, que permite que os usuários usem seus telefones no modo hands-free

Ele utiliza tecnologia de reconhecimento de voz para realizar tarefas como: marcar compromissos, enviar mensagens de texto, publicar em redes sociais ou verificar a previsão do tempo. 

Mas, apesar de ter uma compreensão precisa do que o usuário pede, a primeira versão teve um problema em seu processo de criação. O design de voz e o design visual do telefone, na época, foram feitos de forma separada por diferentes grupos de designers. 

Ambos os grupos sentiram que precisavam lidar sozinhos com todas as formas de entrada e saída. Como consequência, Laura (2015) comenta que muita informação acabou ficando repetitiva. Por exemplo, o Dragon lia algo que já havia sido mostrado na tela. 

Quando os designers aprenderam a trabalhar juntos e começaram a interligar o seu trabalho, descobriram quais elementos faziam mais sentido visualmente e quais deveriam ser tratados por áudio. Como consequência, as versões seguintes lidaram com entrada e saída de forma mais natural, aliando o visual ao áudio.

Para combinar os modos da comunicação com sucesso, Laura (2015) destaca que é importante entender quando você deve usar voz e quando não deve, mas além disso, como é possível combinar de forma eficaz interfaces de voz com outros métodos de entrada e saída.

Existem vários tipos diferentes de experiências multimodais, como toque (háptica), áudio, tela, botões, controles e etc. 

Com as atualizações da tecnologia, haverá mais combinações de entrada e saída no futuro, e isso significa que os designers vão precisar prestar muita atenção para entender quais métodos devem empregar para obter a melhor usabilidade. 

Laura traz algumas dicas importantes para descobrir qual combinação de métodos de entrada e saída é a mais adequada para certo produto.

 

Interfaces de voz puras, as chamadas “estado finito”

 

Interfaces de voz puras baseadas em estado finito são coisas como os Interactive Voice Response System (IVRs) clássicos, isto é, os sistemas de resposta de voz interativa que conhecemos. 

Esses são os sistemas para os quais você liga e ouve uma voz dizendo: 

 

Sistema: Como podemos ajudar? 

Usuário: você pode responder – ‘Consultar meu saldo’, ‘Abrir uma conta’, ‘Pagar boleto’ ou ‘Falar com atendente’. 

 

Também os conhecemos como unidades de resposta audível (URAs), que podem ser receptivas (recebem ligações) ou reversas (realizam ligações).

 Em cada ponto do fluxo, o sistema entende apenas esses comandos específicos. São tecnologias muito utilizadas por empresas que desejam reduzir custos de call center, lidar com tarefas comuns e repetitivas e encaminhar os clientes para o atendimento solicitado.

 

Quando usá-los?

 

Os sistemas de voz pura baseados em estado finito são muito práticos em certas situações. Como a entrada e a saída são voz e áudio, respectivamente, eles são eficientes para produtos que não exigem tela, como os telefones antigos e as wearables (tecnologias vestíveis).

Laura ressalta que, em geral, você usará um sistema de estado finito quando seu produto for simples o suficiente para não valer a pena investir em PLN (Processamento de Linguagem Natural). Eles são úteis em produtos que podem ser treinados para realizar um número pequeno de tarefas. 

Por exemplo, um relógio de cabeceira que permite configurar alarmes não precisa necessariamente de um sistema completo de PLN. Ele só precisa entender comandos predefinidos como “Definir alarme”, que os usuários poderiam memorizar. 

O mesmo vale para o discador automático de um sistema telefônico corporativo. Ele não lida com consultas abertas, apenas reconhece uma lista específica de nomes e encaminha as chamadas.

 

E quais são os desafios das interfaces de voz puras?

 

Um dos principais desafios com sistemas de estado finito é que eles frequentemente exigem que os usuários passem por um labirinto de instruções para chegar à única opção que desejam. 

Se o sistema tenta lidar com coisas demais, pode exigir um grande investimento de tempo e esforço do usuário, apenas para terminar com a necessidade de falar com um atendente ou até ser desconectado.

Sistemas simples que lidam com apenas algumas tarefas previsíveis — que os usuários talvez não saibam como pedir de forma natural — são bons candidatos para uma interface de voz pura baseada em estado finito. 

Por exemplo, o sistema de áudio de um carro pode funcionar bem com esse tipo de interface. Há um número limitado de coisas que você pode querer dele: tocar uma música, aumentar o volume e assim por diante. 

O usuário interage com o sistema diariamente, então é mais provável que use o mesmo vocabulário para os comandos todas as vezes. Cada comando é simples e discreto, então os usuários não ficam presos. E, por fim, é muito fácil reconhecer e se recuperar de um erro.

 

Referência

Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.