A importância da voz e da imagem para interfaces artificiais

Processamento de linguagem natural e a importância da voz e da imagem para interfaces artificiais

Fonte: imagem produzida pelo Flow com prompts do redator.

 

A interfaces de voz e imagem podem contribuir para solucionar algumas situações complexas, veja algumas delas 

 

Redator: Heitor Augusto Colli Trebien

 

Quando melhoramos o nível da tecnologia, muitos sistemas de resposta interativos por voz, como as unidades de resposta audível (URA) migraram para PLN. 

Laura (2015) menciona que isso significa que se tornou mais comum utilizarmos computadores falantes para realizar um atendimento, desde que você use exatamente as palavras que a máquina reconhece.

Escolher ou não um sistema de voz pura depende de o seu produto ter ou não uma tela. Já a decisão de usar processamento de linguagem natural (PLN) é uma questão diferente (Laura, 2015).

Precisamos estudar e refletir sobre o nosso produto para avaliar qual interface de voz é a ideal. As URAs são muito práticas, principalmente aquelas com compreensão de linguagem natural para altos volumes de chamadas com muita complexidade de roteamento. 

Em outras palavras, se houver uma grande quantidade de motivos diferentes pelos quais um usuário faz uma ligação, projetar um fluxo que o leve rapidamente ao destino certo pode ajudar a evitar algumas falhas e erros durante o atendimento.

 

E quando o cliente não sabe exatamente o que quer? 

 

Laura comenta (2015) que esse tipo de situação é muito comum em setores como seguro de saúde, serviços bancários, saúde ou até tecnologia. Em muitos casos, as pessoas até sabem o que querem,  mas não conhecem a linguagem exata que precisam para obter o que desejam. 

Pode ser mais complicado perguntar a um computador: “Como eu libero meu atendimento?”. A resposta seria um tanto quanto longa, e provavelmente não ajudaria no problema. Mas, se dermos a opção de fazer uma seleção como “Obter pré-aprovação para um procedimento médico”, isso pode fazer mais sentido. 

Laura comenta que nesses casos, seria interessante oferecer algum diálogo direcionado para dar pistas ao usuário sobre o que ele pode pedir. Isso facilita o fluxo de comunicação, pois direcionar a pessoa para o que ela precisa dentro daquele contexto.

 

Como a voz e a imagem podem ajudar na comunicação? 


Laura ressalta que estamos passando por um processo de integração entre voz e imagem. Os produtos que têm tela agora também disponibilizam entrada por voz. Assim, permitimos que o usuário fale, e respondemos com uma saída visual para solucionar a demanda.

Enviar mensagens de texto em smartwatches é um ótimo exemplo de quando essa combinação funciona bem. Como as telas dos relógios são muito pequenas, digitar se torna praticamente impossível. No entanto, elas conseguem exibir facilmente o texto reconhecido por voz, permitindo que o usuário confira o que foi transcrito e faça correções se necessário, seja pela própria voz ou por pequenos botões.

Smart TVs também são boas candidatas para esse tipo de interface. Elas atualmente não possuem um método de entrada que facilite comandos complexos, mas certamente têm funcionalidades suficientes para tornar úteis as consultas em linguagem natural. Perguntar pelo filme ou programa é mais simples do que buscar por todo o catálogo, ou escrever por extenso por meio de um controle remoto. 

Laura fala da facilidade, por exemplo, de um aplicativo de pedidos de pizza, no qual podemos dizer o pedido: “Uma pizza de frango com catupiry e uma de chocolate, por favor” do que fazer todas essas seleções tocando na tela. O app só precisa apresentar o pedido com a imagem correta para o cliente confirmar. Claro, neste caso o visual é importante, principalmente para os clientes que não sabem qual pizza querem.

Qualquer interface que envolva entradas abertas e complexas — que sejam fáceis para o usuário falar, mas que gerem resultados complexos ou difíceis de ouvir — é uma boa candidata para uma interface que acomoda entrada por voz e oferece saída visual.

 

Referência

 

Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.