Localização de som (Sound localization)

A localização do som é a capacidade do ouvinte de identificar a localização ou origem de um som detectado em direção e distância. Os mecanismos de localização sonora…

A localização do som é definida como a capacidade do ouvinte de determinar a origem direcional e espacial de um estímulo auditivo.

Os mecanismos subjacentes à localização do som no sistema auditivo dos mamíferos têm sido objeto de extensa pesquisa. O sistema auditivo emprega múltiplas pistas para identificar fontes sonoras, nomeadamente diferenças de tempo interaural, diferenças de nível interaural (ou disparidades de intensidade) entre os ouvidos e dados espectrais. Embora outras espécies, incluindo aves e répteis, também utilizem estas pistas, a sua aplicação pode variar, e algumas possuem pistas de localização únicas não presentes no sistema auditivo humano, tais como aquelas derivadas dos movimentos do ouvido. A capacidade de localização sonora confere uma vantagem evolutiva aos animais.

Transmissão de sinais auditivos para o cérebro

O som representa o resultado perceptivo das vibrações mecânicas que se propagam através de um meio, como o ar ou a água. Por meio de processos de compressão e rarefação, as ondas sonoras atravessam o ar, refletem no pavilhão auricular e na concha do ouvido externo e seguem para o canal auditivo. Nos mamíferos, essas ondas sonoras induzem vibrações na membrana timpânica (tímpano), que por sua vez faz vibrar os três ossículos do ouvido médio. Essa energia mecânica é então transmitida através da janela oval para a cóclea, onde as células ciliadas do órgão de Corti a convertem em um sinal químico. Essas células ciliadas fazem sinapse com fibras ganglionares espirais, que posteriormente transmitem o sinal através do nervo coclear para o cérebro.

Mecanismos Neurais de Localização

Em vertebrados, entende-se que o cálculo das diferenças de tempo interaurais (ITDs) ocorre dentro do núcleo olivar superior do tronco cerebral. Jeffress propôs que esse cálculo seja mediado por “linhas de atraso”, envolvendo neurônios na oliva superior que recebem inervação de cada ouvido por meio de axônios de comprimentos variados. Conseqüentemente, certas células exibem uma conexão mais direta com um ouvido, tornando-as específicas para uma determinada diferença de tempo interaural. Este referencial teórico é análogo ao processo matemático de correlação cruzada. No entanto, a teoria de Jeffress não consegue explicar adequadamente o efeito de precedência, onde apenas o som inicial de uma série de sons idênticos é utilizado para localização, mitigando assim a confusão dos ecos. Portanto, não pode elucidar completamente a resposta neural. Além disso, descobertas fisiológicas recentes no mesencéfalo e no tronco cerebral de pequenos mamíferos lançaram dúvidas significativas sobre a veracidade das hipóteses originais de Jeffress. Neurônios que exibem sensibilidade às diferenças de nível interaural (DPIs) demonstram excitação após estimulação de um ouvido e inibição após estimulação do ouvido contralateral. Consequentemente, a magnitude da resposta de uma célula depende das forças relativas dessas duas entradas, que são determinadas pelas intensidades sonoras percebidas em cada ouvido. Dentro do colículo inferior (CI), um núcleo auditivo localizado no mesencéfalo, numerosos neurônios sensíveis às diferenças de nível interaural (ILDs) exibem funções de resposta que diminuem drasticamente de uma taxa de disparo máxima para zero picos em função do ILD. Por outro lado, um número substancial de neurônios exibe funções de resposta consideravelmente mais superficiais que não diminuem a zero picos.

O Sistema Auditivo Humano

A localização sonora refere-se ao processo cognitivo pelo qual a origem espacial de uma fonte auditiva é determinada. O cérebro emprega variações mínimas de intensidade, características espectrais e sinais temporais para determinar a localização das fontes sonoras.

A localização pode ser caracterizada por uma representação espacial tridimensional, abrangendo azimute (ângulo horizontal), elevação (ângulo vertical) e distância (para sons estacionários) ou velocidade (para sons dinâmicos).

O azimute de um som é indicado por vários fatores: a diferença interaural nos tempos de chegada, a amplitude relativa de alta frequência. sons (conhecidos como efeito de sombra da cabeça) e os reflexos espectrais assimétricos originados de várias estruturas anatômicas, como tronco, ombros e pinas.

As dicas para determinar a distância do som incluem a atenuação da amplitude, a redução de altas frequências e a relação entre os sinais diretos e reverberados.

A posição da fonte sonora influencia como a cabeça atua como uma barreira acústica, alterando assim o timbre, a intensidade e as características espectrais do som. Essa alteração auxilia o cérebro a orientar a origem do som. Essas disparidades sutis entre as entradas auditivas dos dois ouvidos são chamadas de sinais interaurais.

As frequências mais baixas, caracterizadas por comprimentos de onda mais longos, sofrem difração ao redor da cabeça, obrigando o cérebro a processar principalmente sinais de fase originados da fonte sonora.

Helmut Haas demonstrou que o sistema auditivo humano pode localizar uma fonte sonora priorizando a primeira frente de onda que chega, mesmo quando as reflexões subsequentes são até 10 decibéis mais altas. Este fenômeno é denominado efeito Haas, que constitui uma manifestação particular do efeito de precedência. A pesquisa de Haas indicou que mesmo uma disparidade temporal de 1 milissegundo entre o som direto e seus reflexos aumenta a amplitude percebida, permitindo ao cérebro identificar com precisão a localização do som original. O sistema nervoso integra todas as reflexões iniciais em uma entidade perceptiva unificada, facilitando o processamento simultâneo de vários estímulos auditivos pelo cérebro. Especificamente, os reflexos que ocorrem com aproximadamente 35 milissegundos de intervalo entre si e possuem intensidade comparável são perceptualmente fundidos pelo sistema nervoso.

Teoria Duplex

O sistema auditivo determina a direção lateral da entrada de som (ou seja, esquerda, frontal ou direita) analisando informações específicas derivadas de sinais auditivos:

Em 1907, Lord Rayleigh investigou a teoria da localização lateral do som usando um modelo de cabeça humana desprovido de aurículas, empregando diapasões para produzir excitação monofônica. Posteriormente, ele introduziu a teoria da localização sonora baseada em diferenças de sinais interaurais, agora reconhecida como Teoria Duplex. Dado que as orelhas humanas estão posicionadas em lados opostos da cabeça, elas ocupam coordenadas espaciais distintas. Consequentemente, conforme ilustrado no diagrama da Teoria Duplex, as distâncias variáveis entre uma fonte acústica e cada ouvido resultam em disparidades tanto no tempo de chegada como na intensidade dos sinais sonoros nos dois ouvidos. Essas disparidades são formalmente denominadas Diferença de Tempo Interaural (ITD) e Diferença de Intensidade Interaural (IID), respectivamente.

O diagrama da Teoria Duplex indica que para fontes sonoras como B1 ou B2, ocorre um atraso de propagação entre as duas orelhas, gerando assim uma Diferença de Tempo Interaural (ITD). Ao mesmo tempo, a cabeça humana e as aurículas podem exercer um efeito de sombra nos sinais de alta frequência, levando à criação de uma diferença de intensidade interaural (IID).

A diferença de tempo interaural (ITD) refere-se ao fenômeno em que o som originado de um lado, por exemplo, o direito, chega ao ouvido ipsilateral (orelha direita) mais cedo do que ao ouvido contralateral (orelha esquerda). O sistema auditivo avalia os ITDs com base em dois mecanismos principais: (a) atrasos de fase observados em baixas frequências e (b) atrasos de grupo evidentes em altas frequências.
Investigações teóricas e experimentais demonstram que a diferença de tempo interaural (ITD) está correlacionada com a frequência do sinal, denotada como $f$ . Assumindo a posição angular de uma fonte acústica $\theta$ , um raio da cabeça $r$ e uma velocidade acústica $c$ , a função ITD é expressa como: $ITD={\begin{cases}3\times {\frac {r}{c}}\times \sin \theta ,&{\text{if }}f\leq {\text{4000Hz }}\\2\times {\frac {r}{c}}\times \sin \theta ,&{\text{if }}f>{\text{ 4000Hz}}\end{cases}}$ . Esta expressão de forma fechada presume que 0 graus está diretamente à frente da cabeça, com ângulos no sentido anti-horário considerados positivos.
A diferença de intensidade interaural (DII), também conhecida como diferença de nível interaural (DPI), surge porque o som originado de um lado da cabeça, como o direito, apresenta maior intensidade na orelha ipsilateral em comparação com a orelha contralateral devido ao efeito de sombra acústica da cabeça. Estas disparidades no nível sonoro são marcadamente dependentes da frequência, intensificando-se proporcionalmente com o aumento da frequência. Extensas investigações teóricas indicam que o IID é uma função da frequência do sinal $f$ e a posição angular da fonte acústica $\theta$ . A função IID é definida matematicamente como: $IID=1.0+(f/1000)^{0.8}\times \sin \theta$
Em frequências abaixo de 1000 Hz, as diferenças de tempo interaurais (ITDs), especificamente os atrasos de fase, são os principais sinais utilizados para a localização do som. Por outro lado, para frequências superiores a 1.500 Hz, as diferenças de intensidade interaural (IIDs) tornam-se o mecanismo predominante. Existe uma faixa de frequência de transição entre 1.000 Hz e 1.500 Hz, onde os mecanismos ITD e IID contribuem para a audição espacial.
A precisão da localização do som é de aproximadamente 1 grau para fontes sonoras posicionadas diretamente na frente do ouvinte, diminuindo para 15 graus para fontes localizadas lateralmente. O sistema auditivo humano é capaz de discernir diferenças de tempo interaurais de até 10 microssegundos.

Em frequências abaixo de 800 Hz, as dimensões físicas da cabeça humana – especificamente, a distância interaural de 21,5 cm, que corresponde a um atraso de tempo interaural de 626 μs – são menos da metade do comprimento de onda das ondas sonoras incidentes. Esta característica permite ao sistema auditivo determinar inequivocamente atrasos de fase entre as duas orelhas. No entanto, as diferenças de nível interaural são mínimas dentro desta faixa de frequência, particularmente abaixo de aproximadamente 200 Hz, tornando a avaliação precisa da direção da fonte sonora baseada apenas nas disparidades de nível em grande parte inviável. Além disso, à medida que as frequências diminuem abaixo de 80 Hz, a utilidade das diferenças de tempo interaural e das diferenças de nível interaural para determinar a origem lateral de um som diminui significativamente, ou torna-se impossível, devido à diferença de fase entre as orelhas tornar-se demasiado insignificante para uma avaliação direcional eficaz.

Por outro lado, para frequências superiores a 1600 Hz, as dimensões da cabeça ultrapassam o comprimento de onda das ondas sonoras. Consequentemente, uma determinação inequívoca da direção da fonte sonora baseada apenas na fase interaural não é viável nessas frequências mais altas. No entanto, as diferenças de nível interaural tornam-se mais pronunciadas e são processadas ativamente pelo sistema auditivo. Além disso, os atrasos interaurais ainda podem ser percebidos através de uma combinação de diferenças de fase e atrasos de grupo, que são mais proeminentes em frequências mais altas. Especificamente, no início de um som, o atraso temporal deste início entre os ouvidos pode ser utilizado para determinar a direção da fonte sonora correspondente. Este mecanismo tem um significado particular em ambientes reverberantes. Após o início do som, existe uma breve janela temporal durante a qual o som direto chega aos ouvidos antes de qualquer som refletido. O sistema auditivo aproveita esse breve intervalo para avaliar a direção da fonte sonora e mantém essa direção percebida até que as reflexões e a reverberação impeçam uma estimativa direcional inequívoca. É importante notar que os mecanismos acima mencionados são insuficientes para distinguir entre uma fonte sonora localizada à frente do ouvinte e outra posicionada atrás do ouvinte; portanto, sinais auditivos suplementares devem ser processados.

Efeito de filtragem Pinna

Embora a Teoria Duplex postule que as diferenças de tempo interaural (ITD) e as diferenças de intensidade interaural (IID) são cruciais para a localização sonora, essas dicas são principalmente eficazes para desafios de localização lateral. Por exemplo, duas fontes acústicas posicionadas simetricamente na frente e atrás do lado direito da cabeça humana produziriam ITDs e IIDs idênticos, um fenômeno conhecido como efeito cone de confusão. No entanto, os ouvintes humanos mantêm a capacidade de diferenciar essas fontes. Além disso, na audição natural, um único ouvido, desprovido de informação ITD ou IID, pode distinguir estas fontes com considerável precisão. Reconhecendo essas limitações da Teoria Duplex, os pesquisadores avançaram na teoria do efeito de filtragem do pavilhão auricular. O pavilhão auricular humano, ou ouvido externo, é caracterizado por sua forma côncava, dobras intrincadas e assimetria inerente nos planos horizontal e vertical. Essa morfologia complexa faz com que as ondas sonoras refletidas e diretas interajam, gerando um espectro de frequência único no tímpano que indica a localização da fonte acústica. Posteriormente, os nervos auditivos utilizam esse espectro de frequência para localização da fonte.

As pistas espectrais produzidas pelo efeito de filtragem do pavilhão auricular podem ser representadas matematicamente como uma função de transferência relacionada à cabeça (HRTF). As expressões equivalentes no domínio do tempo são denominadas resposta ao impulso relacionada à cabeça (HRIR). Um HRTF é ainda definido como a função de transferência que mapeia o som de um ambiente de campo livre para um local específico dentro do canal auditivo. HRTFs são normalmente modelados como sistemas lineares invariantes no tempo (LTI):

$H_{L}=H_{L}(r,\theta ,\varphi ,\omega ,\alpha )=P_{L}(r,\theta ,\varphi ,\omega ,\alpha )/P_{0}(r,\omega )$

Aqui, L e R denotam as orelhas esquerda e direita, respectivamente. $P_{L}$ e $P_{R}$ significa a amplitude da pressão sonora nas entradas dos canais auditivos esquerdo e direito. Ao mesmo tempo, $P_{0}$ 55§ {\displaystyle P_{0}} representa a amplitude da pressão sonora no centro da coordenada da cabeça na ausência de um ouvinte. Geralmente, os componentes HRTF, $H_{L}$ e $H_{R}$ , são funções dependentes de vários parâmetros: a posição angular da fonte $\theta$ , seu ângulo de elevação $\varphi$ , a distância entre a fonte e o centro da cabeça $r$ , a velocidade angular $\omega$ e a dimensão equivalente do cabeçalho $\alpha$ .

Atualmente, instituições proeminentes envolvidas na medição e compilação de bancos de dados HRTF incluem o Laboratório Internacional CIPIC, o Laboratório de Mídia do MIT, a Escola de Pós-Graduação em Psicoacústica da Universidade de Oldenburg, o Laboratório de Neurofisiologia da Universidade de Wisconsin-Madison e o Laboratório Ames da NASA. Esses bancos de dados, contendo Respostas ao Impulso Relacionadas à Cabeça (HRIRs) de humanos (com audição normal e deficiente) e de várias espécies animais, são disponibilizados publicamente.

Indicações adicionais

O ouvido externo humano, abrangendo o pavilhão auricular e o canal auditivo externo, funciona como um conjunto de filtros seletivos de direção. A ativação de ressonâncias de filtro específicas depende da direção do som recebido. Essas ressonâncias incorporam padrões específicos de direção nas respostas de frequência do ouvido, que o sistema auditivo processa posteriormente para localização do som. Em conjunto com outras reflexões seletivas de direção originadas da cabeça, ombros e tronco, essas estruturas constituem coletivamente as funções de transferência do ouvido externo. Os padrões de resposta de frequência dentro do ouvido são altamente idiossincráticos, influenciados pela morfologia e dimensões únicas do ouvido externo. Quando o som é emitido através de fones de ouvido, especialmente se gravado usando uma cabeça diferente com geometrias distintas do ouvido externo, os padrões direcionais resultantes divergem daqueles percebidos pelos próprios ouvidos do ouvinte. Esta discrepância pode levar a dificuldades na avaliação das direções sonoras dentro do plano mediano. Conseqüentemente, fenômenos como confusões frente-trás ou localização 'dentro da cabeça' podem surgir quando os indivíduos ouvem gravações feitas com uma cabeça fictícia, comumente conhecidas como gravações binaurais. A pesquisa indica que os seres humanos podem localizar monoauralmente sons de alta frequência, mas esta capacidade está ausente para sons de baixa frequência. Por outro lado, a localização binaural mostra-se eficaz para frequências mais baixas. Esta capacidade de localização diferencial é provavelmente atribuída ao tamanho do pavilhão auricular, que é otimizado para interagir principalmente com ondas sonoras de alta frequência. Além disso, a localização precisa da elevação sonora parece estar restrita a sons complexos contendo frequências superiores a 7.000 Hz, um processo que requer a presença do pavilhão auricular.

Quando a cabeça permanece estacionária, as pistas binaurais para localização lateral do som, especificamente a diferença de tempo interaural (ITD) e a diferença de nível interaural (ILD), não fornecem informações sobre a posição de um som dentro do plano mediano. ITDs e ILDs idênticos podem ser gerados por sons ao nível dos olhos ou em qualquer outra elevação, desde que a direção lateral seja consistente. Entretanto, mudanças dinâmicas no ITD e ILD ocorrem quando a cabeça gira, e essas mudanças variam dependendo da elevação do som. Por exemplo, se uma fonte sonora ao nível dos olhos estiver diretamente à frente e a cabeça virar para a esquerda, o som ficará mais alto e chegará mais cedo ao ouvido direito do que ao esquerdo. Por outro lado, se a fonte sonora estiver diretamente acima da cabeça, nenhuma alteração no ITD ou ILD ocorrerá à medida que a cabeça gira. Elevações intermediárias provocarão graus intermediários de mudança correspondentes. Além disso, se a apresentação de sinais binaurais aos dois ouvidos for invertida durante o movimento da cabeça, o som será percebido como originário de trás do ouvinte. Hans Wallach manipulou experimentalmente as pistas binaurais de um som durante os movimentos da cabeça. Embora o som tenha sido posicionado objetivamente ao nível dos olhos, as mudanças dinâmicas no ITD e ILD durante a rotação da cabeça imitaram aquelas que surgiriam de uma fonte sonora elevada. Neste cenário, o som foi localizado na elevação sintetizada. A colocação objetiva das fontes sonoras ao nível dos olhos impediu que as pistas monoaurais especificassem a elevação, demonstrando assim que as mudanças dinâmicas nas pistas binaurais durante o movimento da cabeça são cruciais para a localização precisa do som vertical. Estes movimentos da cabeça não requerem necessariamente uma produção ativa; localização vertical precisa foi observada em uma configuração experimental semelhante quando a rotação da cabeça foi induzida passivamente ao sentar um participante vendado em uma cadeira giratória. Contanto que as mudanças dinâmicas nas pistas binaurais coincidissem com a rotação percebida da cabeça, a elevação sintetizada era percebida com precisão.

Na década de 1960, Batteau demonstrou que o pavilhão auricular também melhora a localização horizontal do som.

Distância da fonte sonora

O sistema auditivo humano possui capacidades limitadas para determinar a distância precisa de uma fonte sonora. Dentro da faixa proximal, certos indicadores facilitam a estimativa de distância, como disparidades de nível extremo (por exemplo, sussurrar diretamente em um ouvido) ou ressonâncias específicas produzidas pelo pavilhão auricular (a parte externa visível do ouvido).

O sistema auditivo humano tem apenas possibilidades limitadas para determinar a distância de uma fonte sonora. No close-up, há algumas indicações para determinação da distância, como diferenças extremas de nível (por exemplo, ao sussurrar em um ouvido) ou ressonâncias específicas do pavilhão auricular (a parte visível do ouvido) no close-up.

O sistema auditivo utiliza as seguintes dicas para estimar a distância até uma fonte sonora:

Relação direto-reverberante: Em ambientes fechados, o ouvinte recebe dois tipos principais de som: som direto, que chega aos ouvidos sem reflexão, e som refletido, que sofreu pelo menos uma reflexão de uma superfície antes de chegar ao ouvinte. A relação entre o som direto e o som refletido pode fornecer uma indicação da distância da fonte sonora.
Loudness: Fontes sonoras distantes normalmente exibem menor intensidade percebida em comparação com fontes próximas. Esta dica é particularmente eficaz para estimar a distância de fontes sonoras familiares.
Espectro sonoro: As altas frequências são atenuadas mais rapidamente pelo ar do que as baixas frequências. Conseqüentemente, uma fonte sonora distante soará mais abafada do que uma fonte próxima devido à atenuação de seus componentes de alta frequência. Para sons com perfil espectral conhecido (por exemplo, fala humana), a qualidade sonora percebida pode facilitar uma estimativa aproximada da distância.
Intervalo de atraso de tempo inicial (ITDG): O ITDG quantifica a diferença temporal entre a chegada da onda sonora direta e a primeira reflexão significativa na posição do ouvinte. As fontes proximais geram um ITDG comparativamente grande, pois as reflexões iniciais percorrem um caminho consideravelmente mais longo. Por outro lado, quando a fonte está distante, as ondas sonoras diretas e refletidas exibem comprimentos de caminho semelhantes, resultando em um ITDG menor.
Movimento: Análogo ao sistema visual, o fenômeno da paralaxe do movimento também ocorre na percepção auditiva. Para um ouvinte em movimento, as fontes sonoras próximas parecem passar mais rapidamente do que as distantes.
Diferença de nível interaural: fontes sonoras muito próximas produzem uma diferença notável no nível sonoro entre os dois ouvidos.

Processamento de sinal

O processamento de som no sistema auditivo humano é conduzido dentro de faixas de frequência específicas conhecidas como bandas críticas. A faixa de frequência audível é segmentada em 24 bandas críticas, cada uma possuindo largura de 1 Bark ou 100 Mel. Para análise direcional, os sinais que se enquadram em uma única banda crítica são analisados coletivamente.

O sistema auditivo possui a capacidade de isolar uma fonte sonora alvo do ruído ambiente. Isso permite que os ouvintes se concentrem em um único orador em meio a múltiplas conversas simultâneas, um fenômeno conhecido como efeito coquetel. Através deste efeito, os sons provenientes de direções interferentes são percebidos como atenuados em relação à fonte sonora desejada. O sistema auditivo pode melhorar a relação sinal-ruído em até 15 dB, reduzindo efetivamente o volume percebido dos sons interferentes para metade ou menos de sua intensidade real.

Em ambientes fechados, os ouvintes recebem não apenas o som direto de uma fonte, mas também os reflexos das superfícies circundantes. Para a localização do som, o sistema auditivo analisa principalmente o som direto, que chega primeiro, em vez do som refletido que chega depois, um princípio conhecido como lei da primeira frente de onda. Consequentemente, a localização sonora permanece viável mesmo em condições reverberantes. Este mecanismo de supressão de eco está localizado no Núcleo Dorsal do Lemnisco Lateral (DNLL).

Para identificar intervalos durante os quais o som direto predomina e pode ser utilizado para avaliação direcional, o sistema auditivo avalia mudanças no volume em várias bandas críticas, juntamente com a estabilidade da direção percebida. Um início robusto de volume em múltiplas bandas críticas, juntamente com uma direção percebida estável, sugere fortemente que este início se origina do som direto de uma fonte sonora recentemente introduzida ou caracteristicamente alterada. O sistema auditivo aproveita esta breve janela temporal para análise direcional e de volume do som. As reflexões subsequentes, que chegam logo depois, não aumentam significativamente o volume nas bandas críticas; em vez disso, eles desestabilizam sinais direcionais devido à superposição de sons de múltiplos caminhos de reflexão. Consequentemente, o sistema auditivo não inicia uma nova análise direcional.

A direção inicial identificada a partir do som direto é estabelecida como a localização percebida da fonte sonora, persistindo até que inícios de volume proeminentes subsequentes, acompanhados por dados direcionais estáveis, sinalizem o potencial para uma análise direcional revisada.

Técnicas e Metodologias Aplicadas

Sistemas estéreo de transmissão auditiva

Esta técnica de localização de som facilita a criação de um verdadeiro sistema estéreo virtual. Ele emprega manequins sofisticados, como o KEMAR, para capturar sinais acústicos ou, alternativamente, utiliza métodos de processamento digital de sinais (DSP) para simular o caminho de transmissão do som das fontes até os ouvidos. Após amplificação, gravação e transmissão, os dois canais de sinais recebidos são posteriormente reproduzidos através de fones de ouvido ou alto-falantes. Esta metodologia de localização emprega técnicas eletroacústicas para adquirir informações espaciais do campo sonoro original, realocando efetivamente o sistema auditivo do ouvinte dentro desse campo. Suas principais vantagens incluem a produção de imagens acústicas vívidas e naturais. Além disso, são necessários apenas dois sinais transmitidos independentes para reconstruir a imagem acústica de um sistema tridimensional.

Sistemas estéreo de paravirtualização 3D

Exemplos de tais sistemas incluem SRS Audio Sandbox, Spatializer Audio Lab e Qsound Qxpander. Esses sistemas aproveitam as funções de transferência relacionadas à cabeça (HRTFs) para simular sinais acústicos que chegam aos ouvidos vindos de várias direções, utilizando reprodução estéreo convencional de dois canais. Consequentemente, podem simular ondas sonoras refletidas, melhorando assim a percepção subjetiva da espacialidade e do envoltório. Como sistemas estéreo de paravirtualização, seu objetivo principal é simular informações de som estéreo. Os sistemas estéreo convencionais empregam sensores que diferem significativamente dos ouvidos humanos. Embora esses sensores possam capturar informações acústicas de várias direções, eles não possuem as mesmas características de resposta de frequência do sistema auditivo humano. Consequentemente, quando um modo de dois canais é implementado, os sistemas auditivos humanos muitas vezes não conseguem perceber um campo sonoro tridimensional. No entanto, os sistemas estéreo de paravirtualização 3D superam essas limitações. Ao aplicar os princípios HRTF, eles extraem informações acústicas do campo sonoro original e subsequentemente geram um campo sonoro tridimensional vívido através de fones de ouvido ou alto-falantes padrão.

Reprodução Virtual Estéreo Multicanal

Os sistemas estéreo multicanal necessitam de vários canais de reprodução; conseqüentemente, alguns pesquisadores empregaram tecnologias de simulação da Função de Transferência Relacionada à Cabeça (HRTF) para minimizar a contagem de canais necessária. Isso envolve o uso de apenas dois alto-falantes para emular vários alto-falantes em uma configuração multicanal, um processo denominado reprodução virtual. Fundamentalmente, esta metodologia integra tanto o princípio da diferença interaural quanto a teoria dos efeitos de filtragem do pavilhão auricular. No entanto, esta abordagem não replica totalmente os sistemas estéreo multicanal tradicionais, como o som surround 5.1 ou 7.1. Esta limitação surge porque, em zonas de audição maiores, a reprodução simulada baseada em HRTF pode gerar imagens acústicas invertidas em locais simétricos.

Animais

Dado que a maioria dos animais possui duas orelhas, numerosos fenômenos auditivos observados em humanos também estão presentes em outras espécies. Consequentemente, as diferenças de tempo interaural (ITDs), também conhecidas como diferenças de fase interaural, e as diferenças de nível interaural (ILDs) são cruciais para a percepção sonora em muitos animais. No entanto, o impacto destes efeitos na localização do som varia com base no tamanho da cabeça, na separação das orelhas, na localização das orelhas e na orientação das orelhas. Animais menores, como insetos, empregam estratégias de localização distintas devido à separação mínima das orelhas. O processo biológico pelo qual os animais emitem som para melhorar a localização, uma forma de sonar ativo, é conhecido como ecolocalização animal.

Localização lateral do som (esquerda, à frente, direita)

Quando as orelhas são posicionadas lateralmente na cabeça, os animais podem utilizar sinais de localização lateral análogos aos do sistema auditivo humano. Isto envolve avaliar diferenças de tempo interaurais (ou diferenças de fase interaurais) para frequências mais baixas e diferenças de nível interaurais para frequências mais altas. A avaliação das diferenças de fase interaural permanece eficaz desde que produza resultados inequívocos, o que normalmente ocorre quando a distância do ouvido é inferior à metade do comprimento da onda sonora (ou no máximo um comprimento de onda). Para animais com cabeças maiores que os humanos, o intervalo efetivo para avaliar diferenças de fase interaural muda para frequências mais baixas, enquanto que para animais com cabeças menores, esse intervalo se estende a frequências mais altas.

A frequência mínima localizável depende da distância interaural. Os animais que possuem uma maior separação auditiva são capazes de localizar frequências mais baixas com mais eficácia do que os humanos. Por outro lado, para animais com uma distância interaural menor, a frequência localizável mais baixa é elevada em comparação com a dos humanos.

Quando as orelhas estão situadas nas laterais da cabeça, as diferenças de nível interaural se manifestam em frequências mais altas e são fundamentais nas tarefas de localização. Entretanto, em animais com orelhas posicionadas no topo da cabeça, a ausência de sombreamento da cabeça reduz significativamente a magnitude das diferenças de nível interaural disponíveis para avaliação. Muitos desses animais possuem a capacidade de articular as orelhas, e esses movimentos podem servir como uma pista distinta de localização lateral.

Localização no plano mediano (frente, acima, atrás, abaixo)

Numerosos mamíferos exibem estruturas auriculares proeminentes adjacentes à entrada do canal auditivo. Consequentemente, estas estruturas podem gerar ressonâncias dependentes da direção, que funcionam como sinais de localização suplementares, semelhantes à localização do plano mediano no sistema auditivo humano. Os animais também empregam outras dicas adicionais de localização.

Inclinação da cabeça

Para localizar o som no plano médio (determinando a elevação do som), podem ser utilizados dois detectores posicionados em alturas variadas. No entanto, os animais muitas vezes adquirem dados aproximados de elevação simplesmente inclinando a cabeça, desde que o som persista por um período suficiente para completar o movimento. Este mecanismo elucida o comportamento inerente de inclinar a cabeça para um lado ao tentar uma localização precisa do som. Alcançar localização instantânea em mais de duas dimensões, com base apenas em sinais de diferença de tempo ou diferença de amplitude, requer a implantação de mais de dois detectores.

Localização com orelhas acopladas (moscas)

A diminuta mosca parasita Ormia ochracea serve como um organismo modelo proeminente na pesquisa de localização sonora devido ao seu aparelho auditivo distinto. Apesar do seu tamanho diminuto, que impede o cálculo convencional das diferenças de tempo interaurais, este inseto demonstra uma precisão excepcional na determinação da direção das fontes sonoras. As membranas timpânicas de suas orelhas opostas estão mecanicamente interligadas, facilitando a resolução de disparidades temporais de submicrossegundos e necessitando de uma nova estratégia de codificação neural. A pesquisa de Ho indicou que um sistema de tímpano acoplado em sapos pode gerar diferenças amplificadas de vibração interaural, mesmo quando a cabeça do animal experimenta apenas pequenas variações no tempo de chegada e no nível de som. Os esforços atuais estão focados no desenvolvimento de microfones direcionais inspirados nesta arquitetura de tímpano acoplado.

Localização sonora bicoordenada em corujas.

A maioria das corujas são aves predadoras ativas durante os períodos noturnos ou crepusculares. Consequentemente, as suas estratégias de caça dependem fortemente de modalidades sensoriais não visuais. Experimentos conduzidos por Roger Payne demonstraram que as corujas apresentam sensibilidade aos sons emitidos por suas presas, em vez de sinais térmicos ou olfativos. Na verdade, os sinais auditivos são essenciais e suficientes para localizar com precisão ratos de um poleiro distante. Essa capacidade exige que as corujas determinem com precisão o azimute e a elevação da fonte sonora.

Golfinhos.

Os golfinhos, juntamente com outros odontocetos, empregam a ecolocalização para detecção, identificação, localização e captura de presas. Os sinais de sonar Dolphin são ideais para localizar múltiplos alvos pequenos em um ambiente aquático tridimensional, caracterizado por alta direcionalidade (uma largura de feixe de 3 dB de aproximadamente 10 graus), largura de banda ampla (uma largura de banda de 3 dB normalmente em torno de 40 kHz, com frequências de pico variando de 40 kHz a 120 kHz) e cliques de curta duração (aproximadamente 40 μs). Os golfinhos podem localizar sons através de mecanismos passivos e ativos (ecolocalização), alcançando uma resolução de cerca de 1 grau. A correspondência intermodal, envolvendo visão e ecolocalização, sugere que os golfinhos percebem a estrutura espacial de objetos complexos interrogados através da ecolocalização, um feito que provavelmente requer a resolução espacial de características de objetos individuais e a sua integração numa representação holística da forma do objeto. Embora os golfinhos sejam sensíveis a pequenas intensidades binaurais e diferenças temporais, cada vez mais evidências indicam a sua utilização de sinais espectrais dependentes da posição, derivados de funções de transferência bem desenvolvidas relacionadas com a cabeça, para localização sonora em planos horizontais e verticais. Um tempo de integração temporal notavelmente breve (264 μs) permite a localização de múltiplos alvos em distâncias variadas. As adaptações anatômicas para localização incluem assimetria pronunciada do crânio, sacos nasais especializados, estruturas lipídicas únicas na testa e mandíbulas e ouvidos médio e interno acusticamente isolados.

O papel de Prestin na localização sonora

No contexto da localização sonora em mamíferos, o gene Prestin emergiu como um determinante crítico, particularmente nos sofisticados sistemas de ecolocalização empregados por morcegos e golfinhos. Descoberto há mais de uma década, Prestin codifica uma proteína situada nas células ciliadas do ouvido interno, que facilita contrações e expansões rápidas. Este intrincado mecanismo funciona de forma análoga a uma buzina de fonógrafo antiga, amplificando as ondas sonoras dentro da cóclea e, assim, melhorando a sensibilidade auditiva geral.

Em 2014, Liu e colegas investigaram as adaptações evolutivas do Prestin, revelando sua contribuição fundamental para a faixa auditiva ultrassônica essencial para o sonar animal, especificamente na ecolocalização. Esta adaptação é fundamental para os golfinhos que navegam em ambientes aquáticos turvos e para os morcegos que se alimentam na escuridão noturna.

As baleias dentadas e os morcegos ecolocalizadores são notáveis por emitirem chamados de ecolocalização de alta frequência, que exibem diversidade em sua morfologia, duração e amplitude. Porém, sua capacidade de audição de altas frequências é fundamental, pois permite a recepção e análise de ecos refletidos em objetos ao seu redor. Uma análise comparativa meticulosa da função da proteína Prestin em morcegos guiados por sonar e golfinhos-nariz-de-garrafa, justapostos com mamíferos não sonares, fornece insights sobre as complexidades deste processo biológico.

Análises evolutivas das sequências da proteína Prestin revelaram uma descoberta significativa: uma substituição de um único aminoácido da treonina (Thr ou T) em mamíferos sonares para asparagina (Asn ou N) em mamíferos não sonares. Esta alteração específica, que sofreu evolução paralela, parece ser um elemento crucial no desenvolvimento da ecolocalização em mamíferos.

Investigações experimentais subsequentes corroboraram esta hipótese, identificando quatro diferenças críticas de aminoácidos em mamíferos sonares que são provavelmente fundamentais para as suas capacidades únicas de ecolocalização. A convergência de estudos evolutivos e dados empíricos oferece evidências substanciais, representando um momento crucial na compreensão da contribuição do gene Prestin para o caminho evolutivo dos sistemas de ecolocalização de mamíferos. Esta pesquisa destaca a adaptabilidade e a importância evolutiva de Prestin, fornecendo informações cruciais sobre as bases genéticas da localização sonora em espécies como morcegos e golfinhos, especialmente no complexo domínio da ecolocalização.

Histórico

O termo 'binaural', que significa 'ouvir com dois ouvidos', foi cunhado em 1859 para descrever o ato de perceber o mesmo som através de ambos os ouvidos ou de dois sons distintos, um em cada ouvido. Carl Stumpf (1848–1936), filósofo e psicólogo alemão, posteriormente diferenciou entre escuta dicótica, envolvendo estímulos distintos apresentados a cada ouvido, e escuta diótica, que envolve a apresentação simultânea do mesmo estímulo para ambos os ouvidos, distinção feita em 1916.

Posteriormente, foi estabelecido que a audição binaural, abrangendo modalidades dicóticas e dióticas, serve como mecanismo para localização sonora.

Científico a investigação sobre a audição binaural começou antes de sua nomeação formal, com William Charles Wells (1757-1817) publicando hipóteses iniciais em 1792, traçando paralelos com seu trabalho sobre visão binocular. Giovanni Battista Venturi (1746-1822) realizou e documentou experimentos onde os participantes tentavam localizar sons usando ambos os ouvidos ou com um ouvido ocluído. No entanto, esta pesquisa não foi levada adiante e só foi redescoberta depois que investigadores subsequentes elucidaram os princípios da localização sonora humana. Notavelmente, Lord Rayleigh (1842–1919) replicou independentemente estas experiências e chegou a conclusões semelhantes aproximadamente setenta e cinco anos mais tarde, sem saber das contribuições anteriores de Venturi.

Charles Wheatstone (1802–1875), conhecido pelo seu trabalho em óptica e mistura de cores, também investigou a percepção auditiva. Ele inventou um instrumento que chamou de “microfone”, que consistia em uma placa de metal posicionada sobre cada orelha, conectada por hastes de metal, para amplificar o som. Em 1827, publicou resultados de experimentos envolvendo a aplicação simultânea ou separada de diapasões em ambas as orelhas, com o objetivo de compreender a mecânica da audição. Ernst Heinrich Weber (1795-1878), August Seebeck (1805-1849) e William Charles Wells também se esforçaram para comparar e contrastar o conceito emergente de audição binaural com os princípios mais amplos da integração binocular.

A compreensão de como as disparidades nos sinais sonoros entre os dois ouvidos contribuem para o processamento auditivo, facilitando assim a localização e direcionalidade do som, progrediu significativamente após a invenção do estetofone por Somerville Scott Alison em 1859. Alison, que também cunhou o termo 'binaural', desenvolveu o estetofone baseado no estetoscópio, instrumento inventado por René Théophile Hyacinthe Laennec (1781-1826). O estetofone apresentava dois "captadores" independentes, permitindo aos usuários perceber e comparar sons provenientes de duas fontes distintas.

Localização acústica
Fusão binaural
Ecolocalização humana
Psicoacústica
Referências

Referências

auditoryneuroscience.com: coleção de arquivos multimídia e demonstrações em flash relacionadas à audição espacial
Processamento de diferença de intensidade interaural em neurônios auditivos do mesencéfalo: efeitos de uma entrada inibitória precoce transitória
HearCom:Hearing in the Communication Society, um projeto de investigação da UE
Uma introdução à localização sonora
Uma introdução à holografia acústica
Uma visão geral das técnicas de formação de feixe acústico
Link para a referência 8: cnki.net/kcms2/article/abstract?v=C1uazonQNNh31hpdlsyEyXcqR2uafvd3NO5N-rwCbIvv4k-h-lQ2euw2Ja7 xMXcwObpETefJWcYFa1zXJqT8ezXCQyp8UxeCVFCuTs07Lhqt4Qc6zy4aOw==&uniplatform=NZKPT

Localização de som (Sound localization)