Fonte: imagem produzida pelo Flow, com prompts do redator.
Como conseguimos produzir som? Compreenda um pouco sobre como a fala funciona
Redator: Heitor Augusto Colli Trebien
Compreendendo um pouco de sonorização
Segundo Caseli e Volpe (2024), distinguimos os sons da fala entre sonoros e surdos.
- Os sons sonoros são principalmente representados pelas vogais e apresentam um padrão regular de vibração. Tendem a ter mais energia, pois são produzidos com a vibração das pregas vocais.
- Já os sons surdos, como /s/ e muitas consoantes, ocorrem a vibração da laringe.
As vogais, por serem sonoras, apresentam diferentes timbres, que são formados pelo movimento da língua e dos lábios, que modificam a movimentação da cavidade oral.
Alguns conceitos fundamentais
Caseli e Volpe (2024) explicam que a velocidade de vibração das pregas vocais é chamada de frequência fundamental (f0) e pode variar de 60 Hz a 300 Hz (aproximadamente) e é responsável por estabelecer a base dos harmônicos do som.
É o principal fator na percepção da altura da voz, ou seja, se é mais grave ou mais aguda, além disso, ajuda a determinar o timbre do som.
Compreendendo um pouco de vibração
A onda glotal (vibração das pregas vocais na laringe) é periódica, ou seja, é formada pela frequência fundamental (f0) e por seus harmônicos (múltiplos inteiros de f0, como x2, x3 e x4), podendo ser entendida como a soma de várias ondas senoidais (oscilações suaves).
A energia gerada na glote faz vibrar o trato vocal, cujas cavidades funcionam como um sistema de ressonância. De forma simplificada, Caseli e Volpe (2024) comentam que podemos imaginar o trato vocal como um tubo reto, fechado na glote e aberto nos lábios. Quando sua forma se modifica pelos movimentos articulatórios, suas ressonâncias também mudam.
Os harmônicos que estão próximos dessas ressonâncias são reforçados, e essas frequências reforçadas, características de determinadas configurações articulatórias (como os diferentes timbres das vogais) são chamadas de formantes.
Como percebemos a fala?
Caseli e Volpe (2024) explicam que o sistema de percepção auditiva é formado por dois componentes principais: as orelhas (órgãos auditivos periféricos) e o sistema nervoso auditivo (cérebro).
A orelha capta as ondas sonoras do ambiente e as transforma em vibrações mecânicas na membrana basilar. Essas vibrações são então convertidas em impulsos elétricos, que são enviados ao cérebro pelo nervo auditivo.
Ao longo do sistema nervoso auditivo, essas informações passam por diferentes etapas de processamento, até que o som seja interpretado e compreendido.
Como funciona o nosso ouvido? Um pouco de fisiologia
O ouvido humano é dividido em ouvido externo, ouvido médio e ouvido interno. O ouvido externo é formado pela parte visível da orelha e pelo canal auditivo, um tubo de cerca de 2,5 cm por onde o som passa até atingir o tímpano.
Quando as ondas sonoras chegam, o tímpano vibra na mesma frequência do som e transmite essa vibração aos ossos do ouvido médio.

A cóclea, localizada no ouvido interno, é a estrutura responsável pela percepção sonora. Ela tem formato espiralado, mede cerca de 3,5 cm e é preenchida por líquido.
No seu interior, a membrana basilar divide a cóclea em câmaras e funciona como um sistema de filtros naturais organizados por frequência: a base responde aos sons mais agudos (frequências altas) e o ápice aos sons mais graves (frequências baixas).
A cóclea transforma essas vibrações em sinais nervosos, que são enviados ao cérebro pelo nervo auditivo para que o som seja interpretado.
Um pouco de psicoacústica – como percebemos os sons?
Na psicoacústica, diferencia-se o que ouvimos (atributos perceptuais) das características físicas do som que podem ser medidas. Cada atributo perceptual está relacionado a uma propriedade física principal:
- Intensidade relaciona-se ao volume.
- Frequência fundamental ao tom (altura).
- Forma espectral ao timbre.
- Tempo de início e fim à temporização.
- Diferenças de fase entre os ouvidos (audição binaural – processar o som com os dois ouvidos) à localização do som.
No entanto, essa relação não é simples, pois outros fatores físicos também influenciam a percepção.
Como Caseli e Volpe destacam (2024), o ouvido humano não percebe todos os sons da mesma forma: ele é menos sensível a frequências baixas em intensidades moderadas e mais sensível por volta de 4 kHz (e também perto de 13 kHz).
A altura do som depende principalmente da frequência fundamental — quanto maior a frequência, mais agudo o som parece — mas a percepção também varia com a intensidade.
Outro fenômeno importante é o mascaramento, que ocorre quando um som mais forte dificulta a percepção de outro mais fraco, especialmente se estiverem próximos em frequência.
Isso pode prejudicar a compreensão da fala e até aumentar erros em sistemas de reconhecimento automático.
Por fim, a audição binaural (uso dos dois ouvidos) permite localizar sons no espaço: sons graves são localizados principalmente pela diferença de tempo de chegada entre os ouvidos, enquanto sons agudos são localizados pela diferença de intensidade.
O timbre: variações sutis entre as vozes e sons
Uma questão importante na percepção sonora é a qualidade de voz, ou seja, por que vozes diferentes soam diferentes?
Parte dessa diferença se explica por fatores físicos evidentes, como a frequência fundamental, que varia, por exemplo, devido ao maior tamanho e massa das pregas vocais em homens adultos em comparação às mulheres. No entanto, há também diferenças mais sutis.
Na psicoacústica, essas diferenças são explicadas pelo conceito de timbre, que é a característica que nos permite distinguir dois sons que têm a mesma intensidade (volume) e a mesma altura (tom), mas ainda assim soam diferentes.
Um exemplo ocorre na música: a mesma nota tocada por um violino soa diferente quando tocada por uma flauta. O timbre depende de vários fatores físicos, como a distribuição de energia nas frequências (espectro), a forma como o som evolui ao longo do tempo (envelope temporal), as variações de amplitude ou frequência e o grau de regularidade (ou irregularidade) dos harmônicos.
Referência
CASELI, H. M.; VOLPE, M. G. (org.). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português– 2a. Edição. São Carlos: BPLN, 2024. Disponível em: https://brasileiraspln.com/livro-pln/2a-edicao.
