Fonte: imagem produzida pelo chatGPT, com prompts do redator.
Para desenvolvermos sistemas conversacionais, precisamos compreender como eles soam
Redator: Heitor Augusto Colli Trebien
Para conversarmos com uma máquina sem que ela nos irrite, precisamos buscar estratégias para melhorar a comunicação entre pessoa e robô.
Laura (2015) traz algumas estratégias para pensarmos em um design conversacional fluido e intuitivo.
Para as conversas soarem como naturais e eficientes (e não chatas ou forçadas), precisamos testar bastante. E não estamos falando só dos testes de usabilidade tradicionais, mas de treinar o ouvido para entender se o que escrevemos realmente funciona numa interface de voz.
Uma opção interessante para checar a fluidez do bot é realizar um “teatro” com outra pessoa. Isto é, veja como outra pessoa responderia para checar se o robô responde de modo similar. Isso ajuda a transformar o que está no papel em algo mais real.
Você ainda pode aproveitar as ferramentas de acessibilidade para ouvir o computador lendo o diálogo – o que ajuda a perceber o que soa estranho em uma voz computadorizada.
Já fazemos algo semelhante para desenhar interfaces gráficas ou para falar de serviços. Em qualquer produto, precisamos manter o tom consistente, ser direto ao ponto e testar tudo com profissionais e usuários.
A diferença é que, quando a voz vira a principal forma de interação, precisamos ajustar a abordagem. É um desafio novo, mas faz parte do jogo pra quem trabalha com UX.
Encontrabilidade e previsibilidade de um produto ou serviço
Encontrabilidade (tradução de discoverability) indica o potencial que um produto tem de ser encontrado ou descoberto. Já previsibilidade refere-se ao quão previsível aquele produto é, ou seja, o quão fácil podemos compreender como devemos usá-lo.
Laura (2015) aponta que a encontrabilidade e previsibilidade são importantíssimos em produtos que funcionam principalmente por voz. Em interfaces de voz, precisamos aproveitar todas as vantagens do processamento de linguagem natural.
O principal desafio desta abordagem é que todo o peso da decisão sobre o que pedir recai nas mãos do usuário, enquanto interfaces visuais podem oferecer pistas contextuais, como sugestões de perguntas ou até opções de seleção explícitas.
Por exemplo, quando acessamos o site do banco, normalmente são apresentadas várias opções: se desejamos fazer login, saber mais sobre como abrir uma conta ou encontrar uma agência.
Quando pensamos em voz, precisamos pensar em algum gatilho que ajude a orientar a pessoa sobre o que ela quer ou precisa. Agora imagine se o mecanismo visual do banco fosse igual ao do Google: apenas uma lupa de pesquisa com uma caixa em branco. Será que conseguiríamos nos encontrar com a mesma facilidade?
Exemplos práticos
Em alguns casos, funcionaria bem, como Laura (2015) aponta, desde que soubéssemos exatamente o que precisamos ou queremos. Por exemplo, se queremos verificar o saldo basta perguntar: “verificar saldo”.
No entanto, imagine que você tem algum problema mais complexo, como abrir uma nova conta empresarial vinculada à sua antiga conta poupança. As opções são mais variadas, e nem sempre sabemos que caminhos devemos seguir para atingir esse objetivo.
Como Laura comenta, essa é uma conversa mais difícil de iniciar, porque existe ainda a possibilidade de você nem saber o que ou como pedir.Muitas vezes nós nem sabemos que esses planos empresariais existem, simplesmente porque não sabíamos que poderíamos perguntar sobre isso.
Esse tipo de encontrabilidade é um problema sério ao se projetar interfaces de voz com entrada aberta por comando. Com isso percebemos como é difícil nos expressar no mundo. Cada pessoa tem um estilo de fala, um léxico (conjunto de recursos e palavras de uma língua) próprio, o que pode dificultar o processo interativo artificial se não estivermos preparados para isso.
Mesmo em interfaces de voz que limitam as entradas (inputs) e tornam a funcionalidade extremamente encontrável — como os IVRs (interactive voice response, sistemas de resposta interativa por voz) que instruem o usuário a dizer palavras específicas — os designers ainda precisam lidar com um nível de imprevisibilidade nas respostas, algo que pode ser mais facilmente solucionado no design para interfaces visuais.
Diferenças entre interfaces visuais e por voz
Como Laura menciona, na maioria das vezes, nossas escolhas dentro de um sistema ou produto visual são restritas pela própria interface.
Existem botões ou links para clicar, opções para selecionar, controles deslizantes para deslizar. Claro, há ocasiões em que inserimos texto livre, mas quase sempre em um contexto direcionado ou orientado pelas dicas gráficas.
Quando você digita qualquer coisa na caixa de busca do Google, você está fazendo algo previsível com aquela informação — mesmo que o conteúdo da entrada seja imprevisível.
No caso da Siri, por outro lado, precisa decidir o que fazer com o que você disse, com base no tipo de entrada:
- Ela abre um app?
- Faz uma busca na web?
- Manda uma mensagem para alguém da sua lista de contatos?
Essa imprevisibilidade da entrada pode ser um grande desafio para os designers, porque precisamos antecipar muito mais cenários do que faríamos se limitássemos o que o usuário pode dizer ou simplesmente deixássemos claro o que ele pode fazer.
Como melhorar a encontrabilidade e a previsibilidade?
Laura (2015) afirma que se quisermos tornar os recursos da nossa interface de voz mais encontrável, uma opção é torná-la mais proativa.
Em vez de forçar os usuários a descobrirem sozinhos o que podem pedir, inicie a conversa.
Um exemplo é a Cortana. Caso você esteja no carro com os fones de ouvido conectados e receber uma mensagem de texto, a Cortana entende que você está dirigindo, anuncia a mensagem e pergunta se você quer que ela seja lida.
Ela não faz isso se seus fones não estiverem conectados, porque pode ser algo privado. Ela entende o contexto e inicia o diálogo com você, em vez de esperar que você peça para começar a conversa.
Ao ativar sugestões com base no contexto — como a Cortana faz — você pode ajudar os usuários a descobrir recursos da sua interface que, de outra forma, eles talvez nunca soubessem que existiam.
Nesse exemplo, o usuário aprende que é possível ouvir mensagens de texto sendo lidas em voz alta.
Outra opção é simplesmente explicar aos usuários o que eles devem dizer. Muitos IVRs (sistemas de resposta por voz) que tentaram usar PLN (processamento de linguagem natural) apresentam sugestões explícitas. Por exemplo, em vez de perguntar apenas:
“Você precisa de ajuda hoje?”,
O sistema elabora as opções disponíveis:
“Com qual de nossos serviços você precisa de ajuda? Você pode dizer: Saldo da Conta, Pedir Novos Cheques, Transferir Dinheiro, entre outros.”
Mesmo que a conversa soe mais robótica, ela é mais fácil de ser seguida, e ajuda o usuário a encontrar uma solução. Na Velip, fizemos testes parecidos.
Preparamos a Vel para responder alguns contextos, como quando o usuário não sabe o que solicitar. A seguir, um exemplo de uma conversa com a Vel:
Redator: não sei o que perguntar
Vel: Nós podemos falar sobre os produtos da Velip, que envolvem torpedo de voz, SMS, WhatsApp e agentes de inteligência artificial. Esses serviços de comunicação automática são úteis nos mais variados contextos empresariais. Sugiro conversarmos sobre esses produtos de comunicação automática para empresas, pois são a minha especialidade.
O objetivo é dar uma direção à conversa, para que a pessoa consiga se organizar e encontrar um propósito na interação. O ideal é pensar, junto com a equipa, os mais variados contextos e assuntos, segundo o propósito da sua empresa e do seu bot. Assim, as respostas ficam mais adequadas ao momento.
Referência
Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.