Da fala para o texto e fala e vice-versa: como essas modalidades da comunicação ajudam a desenvolver sistemas artificiais falantes?

Da fala para o texto e fala e vice-versa: como essas duas modalidades da comunicação ajudam a desenvolver sistemas artificiais falantes?

Fonte: imagem produzida pelo Flow, com prompts do redator.

 

O estudo da fala enquanto fenômeno científico ajuda a desenvolver sistemas artificiais falantes 

 

Redator: Heitor Augusto Colli Trebien

 

Um pouco de história da fala 

 

Caseli e Volpe (2024) apontam que o processamento da língua falada pelo computador envolve diversos campos do conhecimento, desde a linguística e suas ramificações (fonética, fonologia, semântica, sintaxe e pragmática), além de áreas como ciência da computação, engenharia, matemática e psicologia. Isso mostra a complexidade da fala enquanto fenômeno humano e científico.

Estima-se que a fala tenha surgido há cerca de 60 mil anos, enquanto a escrita data de aproximadamente 10 mil anos. Falamos muito antes de começar a escrever. Porém, foi com a escrita que começamos a estudar a fala.  

Segundo Caseli e Volpe, desde o surgimento da língua na espécie humana, a fala tem sido o principal meio de conexão social. Com ela, expressamos emoções, atitudes e negociamos ideias e ações, o que reforça seu papel central na vida em sociedade. 

 

Características da língua humana

 

Uma característica exclusiva da nossa linguagem é a “dupla articulação”, isto é, a capacidade de combinar fonemas (o menor som que ouvimos) para formar morfemas (menor unidade de significado que estrutura uma palavra) e gerar diversas possibilidades de significado. 

Atualmente, a língua falada não se limita à interação face a face, estando presente em meios como telefonia, WhatsApp e comunicação mediada por computadores. 

Esse uso foi intensificado com o avanço das tecnologias digitais e, especialmente, durante a pandemia da Covid-19, que exigiu uma adaptação tecnológica e digital para nos mantermos conversando.

Embora ainda estejamos longe de um cenário ideal em que as conversas com uma máquina ocorram naturalmente por meio da linguagem oral, já existem diversas aplicações que permitem o uso de comandos de voz em contextos domésticos e comerciais.

 

Os sistemas artificiais de fala em língua portuguesa 

 

Em cada região, faz-se necessário ter uma base de dados com cada idioma e suas particularidades. Sem exemplos da língua, não conseguimos desenvolver um sistema comunicativo. 

Em português (ou em qualquer outra língua), o processamento da língua falada enfrentou muitos desafios, principalmente pela escassez de recursos computacionais e de técnicas adequadas. 

As primeiras soluções basearam-se em regras gramaticais e modelos acústicos simples. Com o avanço tecnológico e o aumento da capacidade de processamento, novas abordagens se desenvolveram, possibilitando progressos significativos.

 

Avanços na tecnologia de fala brasileira

 

Em 1990, as técnicas estatísticas ganharam destaque ao serem aplicadas ao processamento da língua falada. Esses modelos utilizaram algoritmos de aprendizado de máquina, como as redes neurais artificiais, para aprimorar o desempenho dos sistemas. 

Com o aumento da disponibilidade de grandes volumes de dados de fala e os avanços em hardware e software, os sistemas de reconhecimento de fala tornaram-se progressivamente mais precisos e eficientes.

Outro avanço relevante foi o desenvolvimento das tecnologias de síntese de fala, que permitem aos computadores transformar texto escrito em fala. 

No início, os sistemas utilizavam técnicas concatenativas, baseadas na gravação de segmentos de fala de um locutor humano, que eram posteriormente combinados para formar palavras e frases. 

Com o tempo, surgiram métodos baseados em síntese de formantes e em modelos estatísticos associados à síntese concatenativa.  

 

O que são formantes? 

 

Um formante, segundo Caseli e Volpe (2024), consiste em uma característica do som da fala que ajuda a diferenciar um som do outro, especialmente as vogais. 

Quando falamos, o ar sai dos pulmões e passa pela garganta, boca e nariz. A posição da língua, dos lábios e o formato da cavidade oral fazem com que certas frequências do som sejam reforçadas. Esses reforços aparecem como picos de energia no som e são chamados de formantes.

Em outras palavras, os formantes funcionam como marcas acústicas que indicam como a boca e a língua estão posicionadas durante a fala. É por causa deles que conseguimos perceber a diferença entre sons como “a”, “e” e “i”, mesmo quando são produzidos pela mesma pessoa.

Ao implementarmos uma tecnologia que processa formantes, obtivemos como resultado uma melhoria significativa na qualidade e naturalidade da fala sintetizada.

 

Como a tecnologia de fala se encontra hoje? 

 

Os avanços mais recentes no processamento da fala em português envolvem o uso de modelos de linguagem neural, como os modelos sequenciais (Seq2Seq) e as redes neurais convolucionais (CNNs) e recorrentes (RNNs). 

Essas técnicas têm apresentado excelentes resultados em tarefas como reconhecimento automático de fala, tradução de fala e resumo automático de áudio.

Paralelamente, a popularização dos assistentes virtuais e dos sistemas de processamento de linguagem natural ampliou o uso da interação por fala em português. 

Diante disso, empresas de tecnologia vêm investindo em pesquisa e desenvolvimento para tornar esses sistemas mais precisos, naturais e intuitivos para os usuários.

 

Como obtemos bons resultados linguísticos no PLN?  

 

Para obter bons resultados no processamento computacional da fala, é fundamental dispor de datasets e corpora de alta qualidade, o que tem motivado esforços significativos da comunidade científica. 

No contexto do português brasileiro, destaca-se o corpus CORAA ASR, desenvolvido para tarefas de reconhecimento automático de fala.

Os sons da fala podem ser digitalizados e processados tanto para reconhecimento de fala, que converte áudio em texto, como para síntese de fala, que transforma texto em áudio. 

Esse processo começa com a digitalização do sinal sonoro, na qual as ondas sonoras analógicas são convertidas em dados digitais por meio de amostragem e codificação. Após essa etapa, o sinal pode ser tratado com diferentes técnicas, como filtragem, compressão e análise.

Um sistema computacional baseado em fala precisa integrar reconhecimento e síntese de fala, mas isso não é suficiente para uma interação eficaz. 

Também são necessários componentes de compreensão e diálogo, além de conhecimento de domínio, para interpretar corretamente a fala do usuário e definir ações adequadas. 

Os principais desafios da área são garantir robustez, flexibilidade, integração entre componentes e eficiência de engenharia. 

Com atualizações constantes, a tecnologia de processamento de fala irá progredir de modo cada vez mais preciso, para solucionar problemas do nosso dia a dia. 

 

Referência

CASELI, H. M.; VOLPE, M. G. (org.). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português– 2a. Edição. São Carlos: BPLN, 2024. Disponível em: https://brasileiraspln.com/livro-pln/2a-edicao.