Os desafios de criar tecnologias de voz e áudio

Os desafios de criar tecnologias de voz e áudio

Fonte: imagem produzida pelo chatGPT, com prompts do redator.

 

Redator: Heitor Augusto Colli Trebien

 

Para começarmos a entender como criar interfaces de voz, Laura (2015) sugere conhecer um pouco sobre a tecnologia por trás dela e como ela foi evoluindo. Afinal, o design sempre depende do que a tecnologia permite — e, nesse caso, existem algumas limitações que devem ser consideradas.

Quando pensamos em design para voz, lidamos com dois aspectos essenciais: o input (entrada de voz – o que a pessoa fala) e o output (saída de voz – o que o sistema responde). É legal pensar nisso como uma conversa — e, como designer, sua missão é garantir que os dois lados dessa conversa funcionem da maneira mais adequada e fluida possível.

Cada um desses aspectos possui suas particularidades, como Laura (2015) ressalta. O input, por exemplo, envolve três desafios técnicos diferentes: reconhecer o que foi dito, transcrevê-lo de maneira correta e “compreender” o que a mensagem significa. 

Não é à toa que as primeiras tecnologias de voz foram usadas para ditado — porque é muito mais fácil reconhecer e transcrever um grupo específico e padronizado de palavras do que entender o sentido delas em seus diversos usos.

 

Desenvolvimento do reconhecimento de fala

 

A tecnologia de reconhecimento, compreensão e resposta de áudio evoluiu significativamente — e continua melhorando. Em meados dos anos 90, Laura (2015) aponta que engenheiros e cientistas da fala gastavam milhares de horas só para treinar sistemas a reconhecer um conjunto específico de palavras.

Esses sistemas usavam o que Laura chama de “gramáticas de estado finito” (finite state grammars) — basicamente, eles só conseguiam entender um número limitado de palavras ou frases. 

Muitos sistemas de resposta de voz interativa (SRVI, do inglês IVRs Interactive Voice Response System) ainda funcionam desse jeito. Os SRVIs são aqueles sistemas de fluxo mais fechado e estruturado que atendem quando você liga para mudar um voo ou ver o saldo no banco.

 

Avanço dos modelos estatísticos

 

Entretanto, como Laura (2015) menciona, com o avanço da tecnologia, estamos partindo para algo bem mais inteligente: os modelos estatísticos de linguagem. Em vez de depender de um conjunto fixo de frases, esses sistemas calculam a probabilidade de que certos sons (ou fonemas) correspondam a determinadas palavras. 

Como a autora exemplifica, ninguém precisa ensinar à interface de voz exatamente como perguntar “Como vai estar o tempo amanhã em São Paulo?”. Ela consegue, com base na probabilidade, entender o que você quis dizer e transformar isso em uma resposta.

Esse tipo de reconhecimento, somado a vários outros avanços em machine learning, é o que tornou possível o processamento de linguagem natural (PLN, do inglês NLPnatural language processing). Isto é, o sistema pode aproximar os significados das palavras e das frases, considerando de modo artificial os contextos e intenções de uso. O designer pode, por meio de um esquema cognitivo pré-formatado, organizar a comunicação para que ela atinja certa finalidade.

Os sistemas ainda estão longe de serem perfeitos, mas já permitem que as máquinas reconheçam o que a gente fala como também “entendam” o significado e respondam da forma mais coerente possível, segundo a probabilidade. 

 

Interfaces por voz e gráficas: possibilidades de interconexões

 

Os avanços tecnológicos e científicos são essenciais para melhorar a capacidade da máquina de solucionar problemas (preferencialmente sem criar novos). 

Para aqueles que trabalham com design de interfaces de voz (VUIvoice user interface), Laura (2015) comenta que esses avanços permitiram que interagíssemos com dispositivos de um jeito que, a alguns anos atrás, parecia coisa de ficção científica. 

Para aproveitarmos essa inovação com todo o seu potencial, precisamos aprender a desenhar e projetá-la da forma certa, para que o usuário tenha uma experiência cada vez mais fluida, intuitiva e agradável. 

Como a autora aponta, muita coisa que já faz parte do design de experiência do usuário (UXuser experience) também serve para VUI. Ou seja, não precisamos começar do zero — só entender alguns padrões novos considerando aqueles que já existem.

Para Laura, um dos pontos mais importantes é conseguir alinhar os objetivos do cliente com os da empresa. Assim, podemos criar produtos realmente bons. 

 

Os desafios de criar produtos eficazes

 

Laura defende que produtos realmente bons são feitos para resolver problemas reais dos usuários de forma rápida e eficaz, e devem se encaixar bem no contexto em que estão sendo usados. A autora ressalta que precisamos desenvolver uma “consciência” de contexto, isto é, compreender a pragmática (modos de uso da língua) e a semântica (significado e sentido) da linguagem em uso cotidiano. 

Por exemplo, se dizemos que sentimos frio, o sistema precisa conseguir pensar em soluções, como fechar a janela, aumentar a temperatura do aquecedor (caso a pessoa tenha), ou dar sugestões de vestimenta para enfrentar o frio. 

Outro exemplo é quando pedimos para aumentar a temperatura: o sistema precisa saber se estou falando da torrada, do forno ou da temperatura da casa. Claro, o usuário precisa ser específico e oferecer contexto por meio da linguagem, mas sabemos que nem sempre a solicitação vem completa.

Assim, precisamos aprender a antecipar os erros e falhas para trazer soluções cada vez mais personalizadas, o que não é nada fácil. Como Laura (2015) comenta, o aspecto positivo disso é que a interface por gráficos (GUIgraphic user interface) nos oferece ajuda. 

 

A finalidade dos sistemas interativos

 

O propósito das interfaces (seja por voz ou gráfico) é o mesmo: facilitar a experiência do usuário ao utilizar a máquina. Assim, os dois modos de comunicação podem se auxiliar quando possível. 

Os conhecimentos que desenvolvemos em uma ajudarão a outra, com particularidades e adaptações, claro, mas os dois sistemas podem se ajudar.  O mesmo vale para o UX (user experience, isto é experiência do usuário), seja de aplicativos ou sites.

Na Velip, buscamos desenvolver uma plataforma integrada, na qual o usuário pode utilizar voz, imagens e vídeos para interagir com os clientes. Assim, cliente e empresa poderão ter uma experiência fluida e agradável no processo de comunicação.

A nossa plataforma também foi construída pensando na fluidez, para que você possa utilizar os recursos oferecidos com o máximo potencial.

Oferecemos comunicação automática por SMS, torpedo de voz, WhatsApp, com auxílio de agentes de IA (robôs de atendimento). Com isso, sua empresa fica preparada para os mais diversos desafios, além de contar com suporte especializado e conversar com o cliente pelo canal que ele mais utiliza no mundo digital.

 

Velip, ecoando sua voz por novos caminhos

 

Referência

Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.