Fonte: imagem produzida pelo Flow, com prompts do redator.
Veja como o processamento de linguagem natural entende o que é a fala
Redator: Heitor Augusto Colli Trebien
Para Caseli e Volpe (2024), a fala precisa do corpo humano para ser produzida, o que é um pouco diferente quando falamos sobre escrita. A escrita foi desenvolvida com auxílio de materiais externos, o que possibilitou um estudo da técnica mais facilitado.
Para compreender a fala, precisamos considerar os aspectos genéticos e as mudanças corporais, cognitivas e sociais do seu aparecimento.
A fala consiste, a grosso modo, em um processo de expressar emoções, pensamentos e ideais por meio de sons articulados. Ela é essencial para as interações sociais, sendo um meio muito prático de comunicação.
Como caracterizamos a fala?
Para delimitar a complexidade do estudo da fala, Caseli e Volpe (2024) elencam 5 características principais para compreendê-la.
Primeiro, há a produção de sons articulados. A fala acontece quando órgãos como a língua, os lábios, os dentes e a glote trabalham juntos para modificar o ar que sai dos pulmões, produzindo os diferentes sons da fala.
Outro elemento importante é o sistema linguístico, ou seja, a linguagem. Ela funciona como um conjunto de símbolos e regras que organizam a comunicação. Esse sistema inclui os sons da língua (fonética e fonologia), a formação das palavras (morfologia), a organização das frases (sintaxe), os significados (semântica) e o uso da linguagem em diferentes situações (pragmática).
A fala também permite a expressão de pensamentos e emoções. Por meio dela, as pessoas compartilham ideias, sentimentos, opiniões, intenções e experiências, indo além da simples transmissão de informações.
Além disso, a fala é essencial para a comunicação social, pois possibilita que as pessoas interajam, troquem informações, criem vínculos, resolvam problemas e realizem atividades em grupo.
Por fim, a aquisição da fala acontece ao longo do desenvolvimento humano. As crianças aprendem gradualmente a falar, desenvolvendo as habilidades motoras necessárias para produzir os sons e assimilando as regras e estruturas da língua presente em seu ambiente.
A fala ainda toma proporções próprias em diferentes idiomas, o que torna seu estudo mais complexo. Cada indivíduo, em certa cultura, irá expressar o idioma de um modo, com algumas particularidades, variações e regionalismos.
Mais algumas diferenças entre fala e escrita
Diferentemente da escrita, como Caseli e Volpe (2024) destacam, o processamento computacional da fala não começa a partir de letras organizadas em palavras e estruturas sintáticas.
No caso da fala, o primeiro passo é transformar o sinal sonoro em dados que o computador consiga analisar. Isso significa que as ondas sonoras precisam ser convertidas em bits, ou seja, em informações digitais que possam ser processadas por sistemas computacionais.
Além disso, a análise da fala exige considerar um nível que muitas vezes não aparece na análise da escrita: a pragmática, especialmente os aspectos prosódicos.
A prosódia inclui elementos como entonação, ritmo e pausas, que ajudam a organizar a informação e a transmitir sentidos adicionais durante a comunicação. Esses elementos são fundamentais para compreender corretamente o significado do que é dito.
Fonética e fonologia para o processamento de linguagem natural
Para compreendermos o processamento da língua falada, Caseli e Volpe (2024) destacam que precisamos compreender o que é a fonética e a fonologia:
- Fonética: estuda os sons da fala, analisando como são produzidos, classificados e representados (transcritos).
- Fonologia: estuda como esses sons se organizam e funcionam dentro de uma língua, ou seja, os padrões e regras que determinam sua distribuição e seu valor social.
O linguista Ferdinand de Saussure, pai da linguística moderna, nos mostrou que a relação entre palavras e seus significados é arbitrária. Isso significa que não existe uma ligação natural entre o som de uma palavra e o objeto ou ideia que ela representa.
Por exemplo, o mesmo conceito pode ser expresso por sons diferentes em línguas diferentes:
- em português: [pɛ] (“pé”)
- em inglês: [fʊt] (“foot”)
Assim, para a fonética, os sons da fala não possuem significado próprio, eles apenas compõem as palavras de cada língua de forma convencional.
Por isso a importância da integração entre fonologia e fonética, para compreender como aquele som é interpretado pelo meio no qual se está.
Configuração da fala
Os sons da fala são efeitos produzidos pela anatomia vocal humana, que funciona como um sistema físico capaz de gerar diferentes sons. Como cada pessoa possui uma anatomia vocal única, suas vocalizações também apresentam características próprias, assim como as impressões digitais.
Mesmo com essas diferenças individuais, a comunicação é possível porque as pessoas percebem e reconhecem padrões sonoros semelhantes.
Para estudar essas semelhanças, pesquisadores identificaram características gerais dos sons da fala, usadas para descrever, classificar e registrar palavras, como em dicionários.
Para isso, também criaram sistemas de notação fonética que representam os sons importantes para o significado das palavras.
Na ciência da fala, existem dois conceitos principais:
- Fonema: unidade mínima de som de uma língua que distingue uma palavra de outra.
- Fone: realização acústica concreta de um fonema, ou seja, a forma como ele é realmente pronunciado.
Os fonemas se dividem em duas classes principais:
- Vogais: definidas por altura (alta, média ou baixa, conforme a posição da língua), qualidade (aberta ou fechada) e tensão (utilização da musculatura, sendo tensa ou frouxa).
- Consoantes: bloqueio ou estreitamento do trato vocal, produzindo um som turbulento que passa através de um ponto de obstrução. Existem as consoantes surdas e sonoras, assim como bilabiais, alveolares, palatais e velares em relação ao ponto de articulação. Sobre o modo de articulá-las, podem ser oclusivas, fricativas, aproximantes ou nasais, entre outras classificações.
Porquê é importante compreender a fonética e a fonologia?
Porque essas classificações nos ajudam a compreender as particularidades de cada língua. Quando conseguimos compreender esses diferenciais, conseguimos processá-los na máquina e utilizá-los a nosso favor.
A principal forma de treinamento envolve gravar diferentes pessoas pronunciando cada fone e fonema para subir na plataforma, e assim adequar a fala do bot para corresponder aos diferentes idiomas e variações linguísticas presentes em cada região.
Referência
CASELI, H. M.; VOLPE, M. G. (org.). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português– 2a. Edição. São Carlos: BPLN, 2024. Disponível em: https://brasileiraspln.com/livro-pln/2a-edicao.
