Desenvolvendo interfaces de voz: produtos que falam!

Produtos falantes: hoje podemos conversar com nossas casas, com o microondas e até a nossa geladeira

Fonte: imagem produzida pelo chatGPT, com prompts do redator.

 

Produtos falantes: hoje podemos conversar com nossas casas, com o microondas e até a nossa geladeira

 

Redator: Heitor Augusto Colli Trebien

 

A forma como interagimos com a tecnologia mudou. Com a Indústria 4.0 (Quarta Revolução Industrial), as máquinas passaram a ser produzidas para se adaptar às necessidades humanas. 

Como Laura Klein (2015) menciona, atualmente não dependemos de teclados, controles ou telas para interagir com algumas máquinas. Apenas com comandos de voz podemos realizar certos objetivos. 

Entretanto, a inovação dos sistemas de voz exigiu que os desenvolvedores aprendessem a criar sistemas criativos, úteis e práticos aos usuários, para que eles soubessem usar os sistemas de interface de voz. 

 

Uma história muito breve de como começamos a falar com computadores

 

Laura destaca (2015) ressalta que falar com máquinas não é uma novidade. A verdade é que a gente conversa com objetos inanimados a anos. Parece muitas vezes que queremos que eles respondam. 

Um dos primeiros produtos “ativados por voz” foi um brinquedinho chamado Radio Rex, lançado nos anos 1920. Era um cachorrinho de mola que saltava de uma casinha quando ouvia um som na faixa dos 500 Hz. Tá longe de ser a Siri, mas para a época, foi um grande avanço.

A tecnologia de voz começou a “entrar no campo da utilidade” mais ou menos lá pelo fim dos anos 1980, quando a IBM criou um computador que conseguia transcrever o que o usuário falava. 

Ele conhecia umas poucas milhares de palavras e, se você falasse bem devagar, com clareza e sem sotaque, ele mostrava o que entendeu na tela. Como dá pra imaginar, não virou febre. 

Tinha diversos problemas e dificultava a naturalidade da fala, já que sua base de conhecimento ainda era pequena. No entanto, foi uma tecnologia importante, e mesmo inovadora, apesar de ainda não ter mostrado todo o seu potencial. 

Laura (2015) destaca que nós sonhamos com interfaces de voz perfeitas desde, pelo menos, os anos 1960. O computador da série Star Trek, por exemplo, entendia tudo o que o Capitão Kirk falava e ainda respondia qualquer pergunta. 

O mesmo aconteceu com R2D2 e C-3PO em Star Wars (1977). R2D2, apesar de não articular palavras, tornou-se um mascote do mundo da ficção científica com seus biips boops.  Já C-3PO, uma máquina que fala com outra, ficou reconhecido pela sua eloquência e a capacidade de falar várias línguas.

O mesmo aconteceu com HAL 9000, de 2001: Uma Odisseia no Espaço. Apesar de ter uns bugs bem preocupantes, era impecável quando o assunto era entender e falar com humanos. O objetivo dos desenvolvedores agora era transformar a ficção científica em realidade.

O problema é que a realidade ficou bem longe dessa ficção por muito tempo — e só recentemente começamos a ver algo parecido acontecer na prática. Como Laura (2015) aponta, mesmo hoje, ainda existem vários desafios técnicos que precisam ser levados em conta na hora de projetar interfaces de voz que realmente funcionem bem.

 

Quando o progresso dos sistemas de voz começou a acontecer

 

Para Laura (2015), foi nos anos 1990 que a coisa começou a andar de verdade. A tecnologia de reconhecimento de voz evoluiu a ponto de permitir que as pessoas começassem a usar comandos de voz em algumas tarefas do dia a dia — mesmo que ainda bem limitadas. 

Um dos primeiros usos populares foram os discadores por voz: você podia falar o nome de uma pessoa e o telefone discava automaticamente um dos dez números cadastrados no seu telefone com teclas.

Já nos anos 2000, o reconhecimento de voz melhorou o suficiente para viabilizar os famosos sistemas Interativos de Resposta por Voz (Interactive Voice ResponseIVRs). 

Esses sistemas começaram a permitir que as pessoas confirmassem reservas de voo ou consultassem o saldo bancário sem precisar falar com um atendente de verdade.

Quando a Siri chegou no iPhone 4S em 2011, muita gente ficou de queixo caído. Apesar das limitações, ela foi o mais próximo que já tivemos do computador de Star Trek

Ainda em 2011 o supercomputador Watson, da IBM, venceu duas pessoas (campeões já conhecidos) no programa Jeopardy! em um jogo de perguntas e respostas usando processamento de linguagem natural. 

Foi mais um passo — e dos grandes — rumo a uma tecnologia que não só reconhece o que a gente fala, mas processa e responde contextualmente.

Os brinquedos também foram evoluindo desde o Radio Rex. Laura (2015) cita a boneca Barbie, da Mattel, especificamente o modelo Hello Barbie, lançado em fevereiro de 2015. Ela vinha conectada a um wifi e a um microfone, e com isso o usuário poderia jogar alguns jogos interativos de voz e algumas conversas limitadas.  

 

O avanço das tecnologias de reconhecimento de voz

 

O avanço das interfaces de voz só foi possível graças a várias inovações tecnológicas, especialmente na combinação entre reconhecimento de fala e processamento de linguagem natural. Isso está abrindo caminho para criar produtos com interações mais intuitivas.

Essa tecnologia oferece grandes oportunidades para quem trabalha com design. Mas não é só colocar um microfone em qualquer aparelho, é preciso entender quando o uso da voz faz sentido. 

Os desenvolvedores precisam conhecer os limites e potencialidades da tecnologia e saber como as pessoas interagem naturalmente com dispositivos que falam.

Na Velip, também fazemos parte da história dos sistemas de voz. Desenvolvemos uma plataforma integrada a sistemas de voz e escrita, que permite comunicações automáticas mais naturais entre empresa e cliente. Nossos canais envolvem SMS, WhatsApp, agentes de IA e torpedos de voz. 

Fale conosco para conhecer melhor o nosso trabalho e descobrir os benefícios de um sistema integrado à voz e à escrita.

 

Velip, ecoando sua voz por novos caminhos.

 

Referência

Laura Klein. Design for voice interfaces: Building products that talk. O’Reilly, 5 nov. 2015.