Aspectos essenciais da fala e sua importância para desenvolver um sistema artificial falante

Aspectos essenciais da língua falada e sua importância para desenvolver um sistema artificial falante

Fonte: imagem produzida pelo Flow, com prompts do redator. 

 

Compreenda como nos entendemos por meio da linguagem verbal, e como esse entendimento pode ser replicado em máquinas

 

Redator: Heitor Augusto Colli Trebien 

 

A língua falada é um processo complexo que envolve a interação entre quem fala e quem ouve, cumprindo diferentes funções comunicativas. 

A fala começa com a intenção de comunicar uma ideia no cérebro do falante, que transforma essa intenção em comandos neuromusculares para movimentar os órgãos da fala e produzir sons. 

Esses sons chegam ao ouvinte como sinais acústicos, são captados pelo sistema auditivo e convertidos em sinais neurais que o cérebro pode interpretar. 

Durante esse processo, o falante também escuta a própria fala e a ajusta continuamente por meio de feedback. 

 

Etapas da produção e compreensão da fala 

 

A produção da fala passa por etapas como a formulação da mensagem, a escolha das palavras, a organização dos fonemas, alofones e padrões prosódicos (como entonação, duração e volume), até a articulação final dos sons. 

Já a compreensão da fala ocorre no sentido inverso: o ouvido analisa as frequências sonoras, o nervo auditivo transforma essas informações em sinais neurais e o cérebro tenta atribuir significado a elas, embora ainda não se saiba exatamente como esse mapeamento final da compreensão acontece.

Os sinais da fala são formados por padrões sonoros contínuos que sustentam a organização da linguagem falada, como fonemas, sílabas e palavras, sendo sua produção e interpretação orientadas pelas regras de sintaxe, semântica e pela estrutura informacional da língua. 

 

Como produzimos e compreendemos o som? 

 

Esses sons se propagam como ondas de pressão no ar, compostas por movimentos alternados de compressão e rarefação das moléculas, que ocorrem na mesma direção da energia aplicada. 

As compressões representam regiões em que as moléculas estão mais concentradas, enquanto as rarefações indicam regiões menos densas. 

Esse movimento alternado ao longo do percurso do som pode ser representado graficamente por uma onda senoidal, caracterizada por um padrão suave e repetitivo, semelhante a uma sequência de elevações e depressões, em que os pontos mais altos correspondem às compressões máximas e os mais baixos às rarefações máximas.

 

Como articulamos o som? 

 

A fala é produzida por ondas de pressão do ar que saem pela boca e pelas narinas do falante, e os fonemas das línguas do mundo costumam ser organizados em duas grandes classes: consoantes, que são articuladas com algum tipo de obstrução ou constrição no trato vocal, e vogais, produzidas sem bloqueios significativos do fluxo de ar. 

Os sons da fala podem ainda ser classificados em subgrupos de acordo com suas propriedades articulatórias, que dependem da anatomia e do movimento dos articuladores do trato vocal. 

O aparelho fonador humano é composto principalmente pelos pulmões, que fornecem o ar, pela laringe, onde as cordas vocais vibram para produzir sons sonoros ou permanecem abertas para sons surdos, pelo véu palatino, que controla a passagem do ar pela cavidade nasal, e pelas cavidades oral e faríngea, que formam o trato vocal. 

Além disso, articuladores como língua, palato duro, dentes e lábios moldam os sons, permitindo a produção de diferentes consoantes e vogais por meio de posições e movimentos específicos.

 

Mas como a voz conseguiu ser gravada para podermos reproduzi-la? 

 

A voz conseguiu ser gravada quando alguém descobriu como transformar som em movimento físico e depois guardar esse movimento.

Ao falar, produzimos ondas sonoras que se espalham pelo ambiente, e essas vibrações podem ser captadas por uma superfície sensível. Nos primeiros dispositivos de gravação, essa superfície era um diafragma que vibrava junto com o som e movimentava uma agulha, a qual registrava fisicamente essas vibrações em cilindros de cera ou discos. 

O primeiro registro de voz reproduzível foi feito em 1877 por Thomas Edison. Antes disso, houveram tentativas de “desenhar” o som, mas ninguém conseguiu ouvir depois.

Com o avanço da tecnologia, esse processo passou a converter o som em sinais elétricos, como ocorreu nas fitas magnéticas, e mais tarde em sinais digitais, armazenados como dados em aparelhos eletrônicos. 

Na reprodução, o processo acontece de forma inversa: o registro é lido e transformado novamente em vibrações por meio de um alto-falante, permitindo que a voz gravada seja ouvida. 

E assim podemos utilizá-la em sistemas artificiais, como os voicebots para torpedos de voz. 

Fique atento para mais dados científicos das áreas de tecnologia, computação e linguística.

 

Velip, ecoando sua voz por novos caminhos  

 

Referência

 

CASELI, H. M.; VOLPE, M. G. (org.). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português– 2a. Edição. São Carlos: BPLN, 2024. Disponível em: https://brasileiraspln.com/livro-pln/2a-edicao.