Psicoacustica (Psychoacoustics)

La psicoacustica è la branca della psicofisica che coinvolge lo studio scientifico della percezione del suono da parte del sistema uditivo umano. È il ramo di…

La psicoacustica costituisce una branca della psicofisica dedicata all'indagine scientifica della percezione del suono da parte del sistema uditivo umano. Questo campo interdisciplinare esplora le risposte psicologiche associate agli stimoli uditivi, inclusi rumore, parola e musica, attingendo a principi di psicologia, acustica, ingegneria elettronica, fisica, biologia, fisiologia e informatica.

La psicoacustica è il ramo della psicofisica che coinvolge lo studio scientifico della percezione del suono da parte del sistema uditivo umano. È la branca della scienza che studia le risposte psicologiche associate al suono, inclusi il rumore, la parola e la musica. La psicoacustica è un campo interdisciplinare che comprende psicologia, acustica, ingegneria elettronica, fisica, biologia, fisiologia e informatica.

Contesto fondamentale

La percezione uditiva trascende un fenomeno puramente meccanico di propagazione delle onde, coinvolgendo fondamentalmente sia i processi sensoriali che quelli percettivi. Quando un individuo sperimenta il suono, le onde sonore meccaniche che viaggiano attraverso l'aria raggiungono l'orecchio, dove vengono successivamente trasformate in potenziali d'azione neurali. Questi impulsi nervosi vengono poi trasmessi al cervello per la percezione. Pertanto, in varie sfide acustiche, come l'elaborazione audio, è vantaggioso considerare non solo gli aspetti meccanici dell'ambiente ma anche il coinvolgimento cruciale sia dell'orecchio che del cervello nel plasmare l'esperienza di ascolto di un individuo.

Ad esempio, l'orecchio interno effettua un'elaborazione significativa del segnale durante la conversione delle forme d'onda sonore in stimoli neurali, un processo che può rendere impercettibili alcune differenze tra le forme d'onda. Questa caratteristica fisiologica viene sfruttata dalle tecniche di compressione dei dati, come MP3. Inoltre, il sistema uditivo mostra una risposta non lineare al variare dei livelli di intensità del suono, un fenomeno noto come volume. Le reti telefoniche e i sistemi di riduzione del rumore audio utilizzano questo principio comprimendo in modo non lineare i campioni di dati prima della trasmissione e successivamente espandendoli per la riproduzione. Un ulteriore effetto della risposta non lineare dell'orecchio è la generazione di note di battito fantasma, o prodotti di distorsione di intermodulazione, quando si verificano suoni di frequenze strettamente correlate.

Sono riconosciute almeno cinque caratteristiche distinte per caratterizzare pratiche psicoacustiche efficaci: sonorità, che quantifica il volume percepito; Rugosità, che rappresenta la dissonanza sensoriale; Nitidezza, correlata alla distribuzione spettrale; Tonalità, definita come il rapporto tra i picchi spettrali tonali; e Spaziosità, utilizzata per prevedere l'estensione spaziale percepita.

Una metodologia alternativa per il riconoscimento o la raccomandazione del genere musicale prevede l'esclusione di un'ampia gamma di caratteristiche oggettive che non hanno una correlazione diretta con la percezione umana. Tuttavia, alcune caratteristiche di basso livello, nonostante non siano direttamente legate alla percezione umana o fisica, possono comunque contribuire a far avanzare la comprensione della psicoacustica.

Il valore quadratico medio (RMS) serve come metodo per quantificare il suono, in particolare il suo volume. Questo processo di misurazione è significativo per il monitoraggio dei livelli di volume. L'attenuazione spettrale aiuta a raggiungere il bilanciamento della frequenza, mentre la piattezza spettrale viene utilizzata per caratterizzare la gamma di ampiezza del rumore. Infine, la correlazione incrociata tra canali stima la relazione percettiva tra il suono ricevuto da un orecchio e quello ricevuto dall'altro.

Limiti percettivi

Il sistema uditivo umano è nominalmente in grado di percepire suoni nell'intervallo di frequenza compreso tra 20 e 20000 Hz. Questo limite superiore in genere diminuisce con l'età, con il risultato che la maggior parte degli adulti non è in grado di rilevare frequenze superiori a 16000 Hz. In condizioni ideali di laboratorio, la frequenza più bassa riconosciuta come tono musicale è 12 Hz. Inoltre, i toni compresi tra 4 e 16 Hz possono essere percepiti attraverso il senso tattile del corpo.

La percezione umana della separazione temporale del segnale audio è stata misurata a meno di 10 μs. Questa osservazione non significa che le frequenze superiori a 100 kHz (1/10 μs) siano udibili, ma indica piuttosto che la discriminazione temporale non è direttamente accoppiata con la gamma di frequenze udibili.

La risoluzione della frequenza dell'orecchio umano è di circa 3,6 Hz nell'intervallo di ottave di 1000–2000 Hz. Ciò implica che cambiamenti di tono superiori a 3,6 Hz sono percepibili in un contesto clinico. Tuttavia, anche le differenze di tono più piccole possono essere individuate attraverso altri meccanismi. Ad esempio, l'interferenza di due altezze spesso provoca una variazione ripetitiva nel volume del tono. Questa modulazione di ampiezza avviene ad una frequenza pari alla differenza tra le frequenze dei due toni ed è nota come battitura.

La notazione musicale occidentale utilizza una scala di semitoni che è logaritmica rispetto alla frequenza, anziché lineare. Al contrario, scale come Mel e Bark sono state sviluppate direttamente dalla ricerca sulla percezione uditiva umana. Sebbene questi siano applicati principalmente negli studi percettivi, non nella composizione musicale, dimostrano una relazione di frequenza approssimativamente logaritmica alle gamme più alte e quasi lineare alle frequenze più basse.

La gamma di intensità sonore percepibili dagli esseri umani è eccezionalmente vasta. Il timpano umano mostra sensibilità alle minime fluttuazioni della pressione sonora, in grado di rilevare cambiamenti che vanno da pochi micropascal (μPa) fino a valori superiori a 100 kPa. Di conseguenza, i livelli di pressione sonora vengono quantificati logaritmicamente, con tutte le pressioni standardizzate rispetto a un riferimento di 20 μPa (equivalente a 1.97385×§1415§−10 atm). Ciò stabilisce la soglia inferiore di udibilità a 0 dB; tuttavia, il limite superiore rimane delineato in modo meno preciso, principalmente per quanto riguarda il rischio di indurre danni all'udito legati al rumore.

Indagini dettagliate sui limiti inferiori dell'udibilità rivelano che l'intensità minima richiesta per la percezione del suono dipende dalla sua frequenza. Misurando sistematicamente questa intensità minima attraverso uno spettro di frequenze del tono di prova, è possibile stabilire una curva della soglia uditiva assoluta (ATH) dipendente dalla frequenza. L'orecchio umano mostra in genere una sensibilità di picco, corrispondente al suo ATH più basso, nell'intervallo 1-5 kHz. Tuttavia, questa soglia è soggetta a variazioni legate all'età, con gli individui più anziani che generalmente dimostrano una sensibilità ridotta al di sopra di 2 kHz.

La soglia assoluta dell'udito (ATH) rappresenta il confine più basso tra i contorni di uguale volume. Questi contorni delineano il livello di pressione sonora (dB SPL) attraverso lo spettro di frequenze udibili al quale si percepisce che i suoni possiedono un volume equivalente. Fletcher e Munson condussero le misurazioni iniziali dei contorni di uguale volume ai Bell Labs nel 1933, utilizzando toni puri trasmessi tramite cuffie; i dati raccolti sono noti come curve Fletcher-Munson. A causa delle difficoltà intrinseche nella quantificazione del volume soggettivo, queste curve sono state derivate facendo la media dei dati di numerosi partecipanti. Nel 1956, Robinson e Dadson perfezionarono questa metodologia, generando una serie rivista di curve di uguale intensità per una sorgente sonora frontale valutata all'interno di una camera anecoica. Queste curve di Robinson-Dadson furono successivamente standardizzate come ISO 226 nel 1986. Una revisione della ISO 226 ebbe luogo nel 2003, incorporando dati raccolti da 12 iniziative di ricerca internazionali.

Localizzazione del suono

La localizzazione del suono si riferisce al processo cognitivo mediante il quale viene identificata l'origine spaziale di uno stimolo uditivo. Il cervello sfrutta minuscole disparità interaurali in termini di volume, caratteristiche tonali e arrivo temporale per accertare la posizione della sorgente sonora. La localizzazione spaziale può essere caratterizzata da parametri tridimensionali: azimut (angolo orizzontale), zenit (angolo verticale) e distanza (per suoni stazionari) o velocità (per suoni in movimento). Gli esseri umani, simili alla maggior parte delle specie quadrupedi, dimostrano abilità nel discernere le direzioni orizzontali del suono, ma mostrano una precisione ridotta nella localizzazione verticale, principalmente attribuibile al posizionamento simmetrico dei loro organi uditivi. Al contrario, alcune specie di gufi possiedono orecchie posizionate asimmetricamente, che consentono loro di rilevare il suono su tutti e tre i piani spaziali: un adattamento evolutivo che facilita la caccia notturna di piccoli mammiferi.

Effetti di mascheramento

Considera uno scenario in cui un segnale uditivo è percepibile da un ascoltatore in assenza di altri suoni. Tuttavia, quando questo segnale viene presentato in concomitanza con un altro suono, la sua intensità deve essere maggiore affinché l'ascoltatore possa percepirlo. Il suono interferente è chiamato mascheramento, mentre il conseguente deterioramento della percezione è chiamato mascheramento. In particolare, il mascheramento può verificarsi anche se il mascheratore non condivide le stesse componenti di frequenza del segnale mascherato. Il mascheramento si manifesta tipicamente quando un segnale e un mascheratore vengono presentati simultaneamente, ad esempio quando un'espressione sussurrata viene oscurata da un'espressione gridata, con conseguente incapacità dell'ascoltatore di percepire il segnale più debole a causa del mascheratore più forte. Inoltre, gli effetti di mascheramento possono estendersi ai segnali presentati immediatamente prima dell'inizio di un mascheramento (mascheramento in avanti) o dopo la sua cessazione (mascheramento all'indietro). Ad esempio, un suono percussivo improvviso e intenso può rendere impercettibili gli stimoli uditivi precedenti o successivi. Si osserva che il mascheramento all'indietro tipicamente mostra un effetto più debole rispetto al mascheramento in avanti. Il fenomeno del mascheramento uditivo è stato ampiamente studiato nella ricerca psicoacustica ed è strategicamente utilizzato negli algoritmi di codifica audio con perdita, come MP3.

Fondamentale mancante

Quando esposto a una serie armonica di frequenze, come 2f, 3f, 4f, 5f e così via (dove f denota una particolare frequenza), la percezione umana in genere identifica l'altezza come f.

Musica

La psicoacustica comprende argomenti e ricerche pertinenti sia alla psicologia musicale che alla musicoterapia. I teorici, tra cui Benjamin Boretz, sostengono che alcuni risultati psicoacustici hanno significato esclusivamente all'interno di un contesto musicale.

Gli LP della serie Environments di Irv Teibel, prodotti tra il 1969 e il 1979, rappresentano una delle prime offerte commerciali di suoni specificamente progettati per aumentare le capacità psicologiche.

Psicoacustica applicata

La psicoacustica ha storicamente mantenuto un rapporto simbiotico con l'informatica. Notevoli pionieri di Internet, J. C. R. Licklider e Bob Taylor, hanno entrambi perseguito studi universitari in psicoacustica. Allo stesso modo, BBN Technologies si è inizialmente concentrata sulla consulenza acustica prima del suo coinvolgimento nella costruzione della rete inaugurale a commutazione di pacchetto.

Licklider è autore di un articolo significativo intitolato "Una teoria duplex della percezione dell'altezza".

La psicoacustica trova applicazione in numerosi domini dello sviluppo di software, dove gli ingegneri implementano modelli matematici consolidati e sperimentali nell'elaborazione del segnale digitale. Molti codec di compressione audio, inclusi MP3 e Opus, utilizzano un modello psicoacustico per migliorare i rapporti di compressione. L’efficacia dei sistemi audio tradizionali nella riproduzione della musica all’interno di teatri e residenze è in gran parte attribuibile alla psicoacustica. Inoltre, i principi psicoacustici hanno portato a sistemi audio innovativi, come la sintesi del campo sonoro psicoacustico. Inoltre, i ricercatori hanno esplorato, con scarso successo, lo sviluppo di nuove armi acustiche in grado di emettere frequenze che potrebbero indebolire, danneggiare o essere letali. La psicoacustica viene utilizzata anche nella sonificazione per rendere udibili e facilmente interpretabili più dimensioni di dati indipendenti. Ciò facilita la guida uditiva senza richiedere audio spaziale, trovando utilizzo nei giochi per computer basati sulla sonificazione e in altre applicazioni come il funzionamento dei droni e la chirurgia guidata dalle immagini. Le applicazioni musicali contemporanee sfruttano anche la psicoacustica, poiché musicisti e artisti creano continuamente nuove esperienze uditive mascherando le frequenze strumentali indesiderate, accentuandone così altre. Un'ulteriore applicazione prevede la progettazione di altoparlanti compatti o di bassa fedeltà, che possono sfruttare il fenomeno della mancanza delle fondamentali per simulare le note basse a frequenze inferiori alle loro capacità di produzione fisica.

I produttori automobilistici progettano meticolosamente le proprietà acustiche dei loro motori e persino delle portiere dei veicoli per ottenere profili sonori specifici.

Codifica audio percettiva

Il modello psicoacustico facilita la compressione del segnale con perdita di alta qualità identificando i componenti di un segnale audio digitale che possono essere eliminati o riprodotti con una fedeltà inferiore senza un sostanziale degrado della qualità del suono percepita. Ciò migliora significativamente il rapporto di compressione complessivo, con l'analisi psicoacustica che spesso produce file musicali compressi che sono da un decimo a un dodicesimo delle dimensioni dei master di alta qualità, ma mostrano una perdita proporzionalmente minore nella qualità distinguibile. Questo tipo di compressione è parte integrante di quasi tutti i formati di compressione audio con perdita di dati contemporanei. Esempi di questi formati includono Dolby Digital (AC-3), MP3, Opus, Ogg Vorbis, AAC, WMA, MPEG-1 Layer II (impiegato per la trasmissione audio digitale in varie nazioni) e ATRAC, la tecnologia di compressione utilizzata nei MiniDisc e in alcuni modelli Walkman.

La psicoacustica è fondamentalmente fondata sull'anatomia umana, in particolare sulle limitazioni del sistema uditivo nella percezione del suono. I vincoli principali includono:

Limite di alta frequenza
Soglia uditiva assoluta
Mascheramento temporale (che comprende il mascheramento in avanti e il mascheramento all'indietro)
Mascheramento simultaneo (anche chiamato mascheramento spettrale)

Un algoritmo di compressione può dare meno priorità ai suoni al di fuori della gamma uditiva umana e diminuire la precisione delle varie frequenze in base al livello di mascheramento previsto. Attraverso la riallocazione giudiziosa dei bit dai componenti meno significativi a quelli più significativi, l'algoritmo garantisce che i suoni che più probabilmente verranno percepiti da un ascoltatore siano rappresentati con una precisione ottimale.

I codificatori audio utilizzano un modello percettivo (psicoacustico) per analizzare l'audio, determinando la precisione necessaria per ciascuna banda di frequenza o segmento temporale. I risultati di questa analisi guidano successivamente la regolazione della precisione della codifica su frequenze e tempi variabili, utilizzando una suite di strumenti di codifica specifici per il formato di codifica audio, dato che formati diversi supportano set di strumenti distinti.

Questi strumenti di codifica includono, ma non sono limitati a:

Filtro di frequenza (ad es. passa-basso, passa-alto)
Trasforma la selezione della finestra, comprendendo dimensioni e parametri del modello
Codifica stereo congiunta
Stereo parametrico
Riquantizzazione del campione
Quantizzazione non lineare
Quantizzazione vettoriale
Modulazione del rumore temporale (TNS)
Sostituzione del rumore percettivo (PNS)
Replicazione della banda spettrale (SBR)

Molti codificatori incorporano un algoritmo di controllo della velocità per mantenere il bitrate di output dell'audio codificato entro limiti specificati. Se la codifica trasparente dovesse rivelarsi irraggiungibile al bitrate desiderato, questi algoritmi modificheranno la precisione della codifica, introducendo così distorsione, su diversi segmenti dello spettro sonoro. Questa regolazione è guidata dai dati derivati dal modello psicoacustico, continuando fino al raggiungimento del bitrate target.

Riferimenti

Fonti

L'orecchio musicale: percezione del suono

L'orecchio musicale: percezione del suono alla Wayback Machine (archiviato 25-12-2005)
Müller C, Schnider P, Persterer A, Opitz M, Nefjodova MV, Berger M (1993). "Psicoacustica applicata al volo spaziale." Wien Med Wochenschr (in tedesco). 143 (23–24): 633–5. PMID 8178525.Fonte: Archivio TORIma Accademia

Psicoacustica (Psychoacoustics)