Desafios que enfrentamos ao desenvolver interfaces de voz automatizadas

Desafios que enfrentamos ao desenvolver interfaces de voz automatizadas

Fonte: imagem produzida pelo Flow com prompts do redator e logo da Velip.

 

As interfaces de voz representam o presente e o futuro: elas fazem parte do nosso dia a dia e estarão cada vez mais próximas

 

Redator: Heitor Augusto Colli Trebien

 

Como Laura (2015) nos lembra, ainda enfrentamos desafios fundamentais com as tecnologias de reconhecimento de voz, mesmo com o básico, como obter uma boa performance no reconhecimento do sim e do não. 

Esses problemas ainda acontecem e podem acontecer dependendo do desenvolvimento do sistema. Eles são comuns, não conseguimos fugir deles. No entanto, podemos sempre melhorar. 

Laura (2015) fala sobre os produtos de antigamente. Por exemplo, em 1999 os dispositivos tinham uma taxa de reconhecimento com uma média de 65% de acertos. As taxas atuais estão mais próximas de 92%. 

Nota-se que temos aproximadamente 8% de falhas, um número que, na verdade, é muito bom, e provavelmente não será absoluto (100%). Entretanto, as falhas podem ser frustrantes quando estamos tentando realizar uma tarefa. Afinal, se você não fizer o problema desaparecer, as pessoas não vão usar sua tecnologia.

 

A relação entre tecnologia e pessoas

 

Um problema comum que os sistemas enfrentam, que faz parte da comunicação humana, são os momentos em que o locutor diz algo e o interlocutor fala por cima. 

No dia a dia, nos adaptamos a essa situação, principalmente quando estamos entre amigos. Nos desculpamos e seguimos em frente. Às vezes, não é necessário se desculpar: algumas pessoas se entendem mesmo em conversas que aparentemente se atropelam. 

Com o computador, a lógica já é diferente. Os dispositivos não têm a articulação necessária para fazer isso, são bem mais arbitrários. Precisam captar a primeira parte do comando e finalizar sua resposta para os turnos de fala acontecerem. 

Um desafio que surge é: quando o computador capta de maneira equivocada o comando, se a pessoa não souber trocar o disco para orientar o computador, a comunicação entrará num looping frustrante, e por fim a única resposta do dispositivo será “desculpe, não entendi muito bem” ou alguma alucinação. 

 

O desenvolvimento da interface de voz e as confusões da comunicação humana

 

Laura (2015) deixa claro que, quanto mais as interfaces de voz se tornarem comuns, mais veremos conflitos e confusão. Sim, é isso mesmo. A confusão e o conflito fazem parte da comunicação humana. Mas será que a máquina consegue lidar com isso? 

Em outras interfaces, como as de toque, fica mais claro quando você está digitando no celular ou apertando um botão no forno. Mas com dispositivos ativados por voz, isso é menos evidente. 

Por exemplo, se pedirmos para aumentar a temperatura para 350 graus, o sistema deve compreender o contexto e saber que estamos pedindo para aumentar a temperatura do forno. Se a máquina aumentar o termostato da casa, isso pode ser um problema. 

Existem inúmeras maneiras de dizer a mesma coisa, e na comunicação humana, como temos o contexto, sabemos o que significa. O dispositivo não tem a experiência da realidade, então precisamos tentar programá-la, de algum modo, para que faça sentido e as ações sejam coerentes.

 

Um vislumbre do futuro: como conversar com os móveis e as nossas roupas? 

 

Laura (2015) comenta sobre os smartwatches e os dispositivos vestíveis. A tendência é termos cada vez mais ferramentas que funcionam por voz. Mas como vamos conversar com todas elas sem que elas se confundam e se atravessem?

Vamos pensar no clássico: “OK Google”. Quando digo isso, quero que um relógio ou celular específico responda — não a Alexa, o microondas, ou qualquer outro dispositivo. 

Esses são problemas complexos de solucionar e que precisam ser desenvolvidos com uma tecnologia melhor. Laura (2015) fala sobre um “hub inteligente” em casa que possa encaminhar nossas instruções para os vários sistemas controlados por voz. 

Entretanto, não significa que os problemas serão solucionados. Podemos ter reconhecimento de voz nos nossos celulares, dispositivos vestíveis e carros. Mas os conflitos da comunicação precisam ser pensados por um bom design — cuidadoso, bem projetado e sensível ao contexto — e por designers que percebam o potencial de conflitos.

Sabemos que isso é extremamente complexo, e no fim sempre existirão conflitos. Precisamos preparar também as pessoas para lidar com os conflitos da máquina, para diminuir frustrações e alcançarmos o melhor resultado. 

 

Como é a relação entre as pessoas e as interfaces de voz? 

 

Laura (2015) comenta que um dos problemas mais significativos do design conversacional é a frustração. As pessoas se irritam muito facilmente (o que é compreensível) com as interfaces de voz. 

Quando conversamos entre nós, é mais fácil criarmos um entendimento compartilhado do mundo por meio do diálogo. Estamos dispostos a perdoar muita coisa, muitas falhas na conversa, que muitas vezes não são nem percebidas. 

No entanto, quando conversamos com um computador, a cooperatividade não é a mesma. Até podemos começar sendo tolerantes, mas quando percebemos a falta de humanidade, nos irritamos e a frustração começa a atrapalhar o caminho.

 

Quais são as possibilidades do futuro da voz?

 

Refletir sobre os desafios que surgem ao desenvolver interfaces de voz pode gerar um questionamento. Segundo Laura (2015), esse questionamento é: como o futuro deveria ser? 

As interfaces da TV, atualmente, são difíceis de serem utilizadas, precisamos fazer seleções com um controle remoto letra por letra. Com a fala existe uma possibilidade de superar essa dificuldade. 

As interfaces automotivas podem se beneficiar do uso da voz, principalmente quando pensamos em segurança. Claro, precisamos considerar o contexto do trânsito e o barulho, que pode atrapalhar a voz, tanto no input como no output. Mas, se bem implementada, evita a ação de tirar o rosto da estrada para olhar o mapa. 

Importante considerar que outros problemas podem surgir, como por exemplo conversas dentro do carro: no reconhecimento, o app não pode confundir um comando de direção de uma conversa banal. Se estiver indo para o shopping, mas estiver conversando com um parente sobre clínicas de atendimento médico, o app não pode alterar a rota. 

A voz pode ser prática, mas precisamos tomar cuidado para não criar outros problemas. Ela é um apoio que deve ser implementada em situações que façam sentido. 

 

Democratização das tecnologias de voz

 

Como Laura (2015) comenta, o reconhecimento de voz, hoje, já está disponível de modo mais facilitado e até mais barato. Agora está em celulares e dispositivos vestíveis, e cada vez mais empresas incorporam essa tecnologia aos aplicativos como um recurso. 

O futuro é algo complexo de prever, e as previsões podem estar erradas. Entretanto, algo que podemos refletir é sobre as oportunidades de permitir que as pessoas interajam de forma mais natural com dispositivos, utilizando o melhor canal para extrair o melhor resultado. 

A combinação de big data e melhorias no reconhecimento de voz pode nos aproximar de conversas mais reais com computadores e outras tecnologias de forma mais precisa do que já temos hoje. 

Laura (2015) comenta sobre as possibilidades da Realidade Virtual e Aumentada. Por exemplo, os jogadores, no futuro, poderão utilizar a voz para imergir ainda mais e ter uma experiência ampliada.

O momento que vivemos é incrivelmente empolgante para o design de voz. Designers de voz atuam principalmente em IVR (resposta interativa por voz), mas, com as APIs se abrindo e com mais eletrônicos de consumo, estamos vivendo uma nova forma de nos relacionar com tecnologias de voz, onde agora elas fazem parte do nosso dia a dia. 

 

Referência

 

Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.