Psikoakustik, insanın işitme sistemi tarafından ses algısının bilimsel olarak araştırılmasına adanmış bir psikofizik dalı oluşturur. Bu disiplinlerarası alan, psikoloji, akustik, elektronik mühendisliği, fizik, biyoloji, fizyoloji ve bilgisayar bilimi ilkelerinden yararlanarak gürültü, konuşma ve müzik gibi işitsel uyaranlarla ilişkili psikolojik tepkileri araştırır.
Psikoakustik, sesin insan işitsel sistemi tarafından algılanmasının bilimsel olarak incelenmesini içeren psikofizik dalıdır. Gürültü, konuşma ve müzik de dahil olmak üzere sesle ilişkili psikolojik tepkileri inceleyen bilim dalıdır. Psikoakustik, psikoloji, akustik, elektronik mühendisliği, fizik, biyoloji, fizyoloji ve bilgisayar bilimini içeren disiplinlerarası bir alandır.
Temel Bağlam
İşitsel algı, temelde hem duyusal hem de algısal süreçleri içeren, tamamen mekanik bir dalga yayılımı olgusunu aşar. Bir kişi sesi deneyimlediğinde, havada dolaşan mekanik ses dalgaları kulağa ulaşır ve daha sonra burada sinirsel aksiyon potansiyellerine dönüşürler. Bu sinir uyarıları daha sonra algı için beyne iletilir. Bu nedenle, ses işleme gibi çeşitli akustik zorluklarda, yalnızca ortamın mekanik yönlerini değil, aynı zamanda bireyin dinleme deneyimini şekillendirmede hem kulağın hem de beynin önemli katılımını dikkate almak avantajlıdır.
Örneğin, iç kulak, ses dalga formlarının sinirsel uyaranlara dönüştürülmesi sırasında önemli bir sinyal işleme gerçekleştirir; bu, dalga formları arasındaki belirli farklılıkları algılanamaz hale getirebilen bir süreçtir. Bu fizyolojik özellik, MP3 gibi veri sıkıştırma teknikleriyle kullanılır. Dahası, işitsel sistem, değişen ses yoğunluğu seviyelerine, ses yüksekliği olarak bilinen bir olguya karşı doğrusal olmayan bir yanıt sergiler. Telefon ağları ve ses gürültüsü azaltma sistemleri, veri örneklerini iletimden önce doğrusal olmayan bir şekilde sıkıştırarak ve ardından bunları oynatma için genişleterek bu prensibi kullanır. Kulağın doğrusal olmayan tepkisinin bir diğer etkisi, yakından ilişkili frekanslardaki sesler ortaya çıktığında hayalet vuruş notalarının veya modülasyonlar arası bozulma ürünlerinin üretilmesidir.
Etkili psikoakustik uygulamaları karakterize etmek için en az beş farklı özellik tanınır: Algılanan ses seviyesini ölçen ses yüksekliği; Duyusal uyumsuzluğu temsil eden pürüzlülük; Spektral dağılımla ilgili keskinlik; Tonal spektral zirvelerin oranı olarak tanımlanan tonsallık; ve Genişlik, algılanan mekansal kapsamı tahmin etmek için kullanılır.
Müzik türünün tanınmasına veya tavsiye edilmesine yönelik alternatif bir metodoloji, insan algısıyla doğrudan ilişkisi olmayan çok çeşitli nesnel özelliklerin hariç tutulmasını içerir. Bununla birlikte, belirli düşük seviyeli özellikler, doğrudan insan veya fiziksel algıya bağlı olmasa da, yine de psikoakustik anlayışının ilerlemesine katkıda bulunabilir.
Kök Ortalama Kare (RMS), sesin, özellikle de ses yüksekliğinin ölçülmesi için bir yöntem olarak hizmet eder. Bu ölçüm işlemi ses seviyelerinin izlenmesi açısından önemlidir. Spektral Yuvarlanma, frekans dengesinin sağlanmasına yardımcı olurken Spektral Düzlük, gürültünün genlik aralığını karakterize etmek için kullanılır. Son olarak Kanallar Arası Çapraz Korelasyon, bir kulağın aldığı ses ile diğer kulağın aldığı ses arasındaki algısal ilişkiyi tahmin eder.
Algısal Sınırlar
İnsanın işitsel sistemi, nominal olarak 20 ila 20000 Hz frekans aralığındaki sesleri algılama kapasitesine sahiptir. Bu üst sınır genellikle yaşla birlikte azalarak çoğu yetişkinin 16000 Hz'in üzerindeki frekansları tespit edememesine neden olur. İdeal laboratuvar koşullarında müzik tonu olarak tanınan en düşük frekans 12 Hz'dir. Ayrıca 4 ile 16 Hz arasındaki tonlar vücudun dokunma duyusu aracılığıyla algılanabilir.
İnsanın ses sinyali algısı zaman ayrımı 10 μs'den daha kısa bir sürede ölçülmüştür. Bu gözlem, 100 kHz (1/10 μs) üzerindeki frekansların duyulabilir olduğu anlamına gelmez; daha ziyade zamansal ayrımcılığın duyulabilirliğin frekans aralığıyla doğrudan bağlantılı olmadığını gösterir.
İnsan kulağının frekans çözünürlüğü, 1000–2000 Hz oktav aralığı içinde yaklaşık 3,6 Hz'dir. Bu, klinik bağlamda 3,6 Hz'den büyük perde değişikliklerinin algılanabileceği anlamına gelir. Bununla birlikte, diğer mekanizmalar aracılığıyla daha küçük perde farkları bile fark edilebilir. Örneğin, iki perdenin karışması sıklıkla tonun ses seviyesinde tekrarlayan bir değişime neden olur. Bu genlik modülasyonu, iki tonun frekansları arasındaki farka eşit bir frekansta meydana gelir ve vuruş olarak bilinir.
Batı müzik notasyonu, frekansa göre doğrusal yerine logaritmik olan yarım tonlu bir ölçek kullanır. Tersine, mel ve Bark ölçekleri gibi ölçekler doğrudan insanın işitsel algı araştırmalarından geliştirilmiştir. Bunlar öncelikle müzik kompozisyonlarında değil algısal çalışmalarda uygulansa da, yüksek aralıklarda yaklaşık olarak logaritmik bir frekans ilişkisi, düşük frekanslarda ise neredeyse doğrusal bir frekans ilişkisi gösterirler.
İnsanlar tarafından algılanabilen ses yoğunluklarının aralığı son derece geniştir. İnsan kulak zarı, ses basıncındaki anlık dalgalanmalara karşı hassasiyet gösterir ve birkaç mikropaskaldan (μPa) 100 kPa'yı aşan değerlere kadar olan değişiklikleri tespit etme kapasitesine sahiptir. Sonuç olarak, ses basıncı seviyeleri logaritmik olarak ölçülür ve tüm basınçlar 20 μPa (1,97385×§1415§−10 atm'ye eşdeğer) referansına göre standartlaştırılır. Bu, 0 dB'de duyulabilirlik alt eşiğini belirler; ancak üst sınır, öncelikle gürültüye bağlı işitme bozukluğuna neden olma riskiyle ilgili olarak daha az kesin olarak çizilmiştir.
İşitilebilirliğin alt sınırlarıyla ilgili ayrıntılı araştırmalar, ses algısı için gereken minimum yoğunluğun, sesin frekansına bağlı olduğunu ortaya koymaktadır. Bu minimum yoğunluğun bir test tonu frekansları spektrumunda sistematik olarak ölçülmesiyle, frekansa bağlı bir mutlak işitme eşiği (ATH) eğrisi oluşturulabilir. İnsan kulağı genellikle 1–5 kHz aralığında en düşük ATH'ye karşılık gelen en yüksek hassasiyeti sergiler. Bununla birlikte, bu eşik yaşa bağlı değişikliklere tabidir; yaşlı bireylerde genellikle 2 kHz'in üzerinde azalmış hassasiyet görülür.
Mutlak işitme eşiği (ATH), eşit ses yüksekliği konturları arasındaki en düşük sınırı temsil eder. Bu konturlar, seslerin eşdeğer yüksekliğe sahip olduğunun algılandığı işitilebilir frekans spektrumu boyunca ses basıncı seviyesini (dB SPL) tanımlar. Fletcher ve Munson, 1933'te Bell Laboratuarlarında kulaklık aracılığıyla iletilen saf tonları kullanarak eşit ses yüksekliği konturlarının ilk ölçümlerini gerçekleştirdiler; topladıkları veriler Fletcher-Munson eğrileri olarak bilinir. Sübjektif ses yüksekliğinin ölçülmesindeki doğal zorluklar nedeniyle, bu eğriler çok sayıda katılımcıdan alınan verilerin ortalaması alınarak elde edildi. 1956'da Robinson ve Dadson, yankısız bir oda içinde değerlendirilen bir ön ses kaynağı için gözden geçirilmiş bir eşit ses yüksekliği eğrileri seti oluşturarak bu metodolojiyi geliştirdiler. Bu Robinson-Dadson eğrileri daha sonra 1986 yılında ISO 226 olarak standardize edildi. 2003 yılında ISO 226'nın 12 uluslararası araştırma girişiminden derlenen verileri içeren bir revizyonu yapıldı.
Ses Yerelleştirmesi
Sesin lokalizasyonu, işitsel bir uyaranın mekansal kökeninin tanımlandığı bilişsel süreci ifade eder. Beyin, ses kaynağı konumlarını tespit etmek için ses yüksekliği, ton özellikleri ve zamansal varış açısından çok küçük kulaklar arası eşitsizliklerden yararlanır. Uzamsal lokalizasyon üç boyutlu parametrelerle karakterize edilebilir: azimut (yatay açı), zenit (dikey açı) ve mesafe (sabit sesler için) veya hız (hareketli sesler için). Dört ayaklı türlerin çoğuna benzer şekilde insanlar, yatay ses yönlerini ayırt etme konusunda yeterlilik sergilerler ancak öncelikle işitsel organlarının simetrik yerleşimine atfedilebilen dikey lokalizasyonda daha düşük doğruluk sergilerler. Tersine, bazı baykuş türlerinin asimetrik olarak konumlandırılmış kulakları vardır ve bu da onların üç uzaysal düzlemdeki sesleri algılamasına olanak tanır; bu, küçük memelilerin gece avlanmasını kolaylaştıran evrimsel bir adaptasyondur.
Maskeleme Efektleri
Diğer seslerin yokluğunda işitsel bir sinyalin dinleyici tarafından algılanabildiği bir senaryo düşünün. Ancak bu sinyal başka bir sesle eş zamanlı olarak sunulduğunda, dinleyicinin bunu algılayabilmesi için yoğunluğunun daha büyük olması gerekir. Müdahale eden sese maskeleyici adı verilir ve bunun sonucunda ortaya çıkan algı bozukluğuna da maskeleme adı verilir. Özellikle maskeleyici, maskelenmiş sinyalle aynı frekans bileşenlerini paylaşmasa bile maskeleme meydana gelebilir. Maskeleme tipik olarak bir sinyal ve bir maskeleyici aynı anda sunulduğunda ortaya çıkar (örneğin, fısıldayan bir ifade, bağırılan bir ifade tarafından gizlendiğinde), bu da dinleyicinin daha yüksek maskeleyici nedeniyle daha zayıf sinyali algılayamamasıyla sonuçlanır. Ayrıca, maskeleme etkileri, maskeleyicinin başlamasından hemen önce (ileri maskeleme) veya sona erdikten sonra (geriye maskeleme) sunulan sinyallere kadar uzanabilir. Örneğin ani, yoğun bir vurmalı ses, önceki veya sonraki işitsel uyaranları duyulamaz hale getirebilir. Geriye doğru maskelemenin tipik olarak ileri maskelemeye göre daha zayıf bir etki gösterdiği görülmektedir. İşitsel maskeleme olgusu psikoakustik araştırmalarda kapsamlı bir şekilde araştırılmıştır ve MP3 gibi kayıplı ses kodlama algoritmalarında stratejik olarak kullanılmaktadır.
Eksik Temel Bilgiler
2f, 3f, 4f, 5f ve benzeri gibi harmonik bir frekans dizisine maruz kaldığında (burada f belirli bir frekansı belirtir), insan algısı perdeyi genellikle f olarak tanımlar.
Müzik
Psikoakustik, hem müzik psikolojisi hem de müzik terapisiyle ilgili konuları ve araştırmaları kapsar. Aralarında Benjamin Boretz'in de bulunduğu teorisyenler, bazı psikoakustik bulguların yalnızca müzikal çerçevede önem taşıdığını iddia ediyor.
Irv Teibel'in 1969 ile 1979 yılları arasında üretilen Environments serisi LP'leri, psikolojik kapasiteleri artırmak için özel olarak tasarlanmış seslerin ilk ticari sunumunu temsil ediyor.
Uygulamalı Psikoakustik
Psikoakustik, tarihsel olarak bilgisayar bilimi ile simbiyotik bir ilişki sürdürmüştür. İnternetin önde gelen öncüleri J. C. R. Licklider ve Bob Taylor, psikoakustik alanında yüksek lisans eğitimi aldılar. Benzer şekilde, BBN Technologies, ilk paket anahtarlamalı ağın inşasına dahil olmadan önce, başlangıçta akustik danışmanlığına odaklandı.
Licklider, "Duplex perde algısı teorisi" başlıklı önemli bir makalenin yazarıdır.
Psikoakustik, mühendislerin dijital sinyal işlemede yerleşik ve deneysel matematiksel modelleri uyguladığı yazılım geliştirmenin çeşitli alanlarında uygulama alanı bulur. MP3 ve Opus da dahil olmak üzere birçok ses sıkıştırma codec'i, sıkıştırma oranlarını geliştirmek için psikoakustik bir model kullanır. Geleneksel ses sistemlerinin tiyatrolarda ve konutlarda müziğin yeniden üretilmesindeki etkinliği büyük ölçüde psikoakustiğe atfedilebilir. Üstelik psikoakustik ilkeler, psikoakustik ses alanı sentezi gibi yenilikçi ses sistemlerine yol açmıştır. Buna ek olarak araştırmacılar, sınırlı bir başarı ile, zarar verebilecek, zarar verebilecek veya öldürücü olabilecek frekanslar yayabilen yeni akustik silahların geliştirilmesini araştırdılar. Psikoakustik, birden fazla bağımsız veri boyutunu duyulabilir ve kolayca yorumlanabilir hale getirmek için sonifikasyonda da kullanılır. Bu, uzaysal ses gerektirmeden işitsel yönlendirmeyi kolaylaştırır, sonifikasyon tabanlı bilgisayar oyunlarında ve drone operasyonu ve görüntü kılavuzlu cerrahi gibi diğer uygulamalarda kullanım alanı bulur. Müzisyenler ve sanatçılar, istenmeyen enstrüman frekanslarını maskeleyerek diğerlerini vurgulayarak sürekli olarak yeni işitsel deneyimler yarattıklarından, çağdaş müzik uygulamaları aynı zamanda psikoakustikten de yararlanmaktadır. Diğer bir uygulama, fiziksel üretim kapasitelerinin altındaki frekanslardaki bas notalarını simüle etmek için temel bilgilerin eksik olması olgusundan yararlanabilen kompakt veya düşük kaliteli hoparlörlerin tasarımını içerir.
Otomobil üreticileri, belirli ses profilleri elde etmek için motorlarının ve hatta araç kapılarının akustik özelliklerini titizlikle tasarlar.
Algısal Ses Kodlaması
Psikoakustik model, algılanan ses kalitesinde önemli bir bozulma olmadan daha düşük bir doğrulukta ortadan kaldırılabilen veya yeniden üretilebilen bir dijital ses sinyalinin bileşenlerini tanımlayarak yüksek kaliteli kayıplı sinyal sıkıştırmasını kolaylaştırır. Bu, genel sıkıştırma oranını önemli ölçüde artırır; psikoakustik analiz sıklıkla yüksek kaliteli ana parçaların boyutunun onda biri ila on ikide biri kadar olan, ancak fark edilebilir kalitede orantılı olarak daha küçük bir kayıp sergileyen sıkıştırılmış müzik dosyaları sağlar. Bu tür sıkıştırma, hemen hemen tüm çağdaş kayıplı ses sıkıştırma formatlarının ayrılmaz bir parçasıdır. Bu formatların örnekleri arasında Dolby Digital (AC-3), MP3, Opus, Ogg Vorbis, AAC, WMA, MPEG-1 Layer II (çeşitli ülkelerde dijital ses yayını için kullanılır) ve MiniDisc ile belirli Walkman modellerinde kullanılan sıkıştırma teknolojisi olan ATRAC yer alır.
Psikoakustik temel olarak insan anatomisine, özellikle de işitsel sistemin ses algısındaki sınırlamalarına dayanır. Birincil kısıtlamalar şunları içerir:
- Yüksek frekans sınırı
- Mutlak işitme eşiği
- Geçici maskeleme (ileriye doğru maskelemeyi ve geriye doğru maskelemeyi kapsar)
- Eş zamanlı maskeleme (alternatif olarak spektral maskeleme olarak da adlandırılır)
Bir sıkıştırma algoritması, insanın işitsel aralığı dışındaki seslere daha az öncelik verebilir ve beklenen maskeleme düzeyine bağlı olarak çeşitli frekansların hassasiyetini azaltabilir. Algoritma, bitlerin daha az önemli bileşenlerden daha önemli bileşenlere doğru akıllıca yeniden tahsis edilmesi yoluyla, dinleyici tarafından algılanması en muhtemel seslerin optimum doğrulukla temsil edilmesini garanti eder.
Ses kodlayıcılar, sesi analiz etmek için algısal (psikoakustik) bir model kullanır ve her frekans bandı veya zamansal bölüm için gerekli hassasiyeti belirler. Bu analizin sonuçları, farklı formatların farklı araç setlerini desteklemesi göz önüne alındığında, ses kodlama formatına özel bir kodlama araçları paketi kullanarak, kodlama hassasiyetinin değişen frekanslar ve zamanlar boyunca ayarlanmasına daha sonra rehberlik eder.
Bu kodlama araçları aşağıdakileri içerir, ancak bunlarla sınırlı değildir:
- Frekans filtreleme (ör. alçak geçiş, yüksek geçiş)
- Pencere seçimini boyut ve model parametrelerini kapsayacak şekilde dönüştürün
- Ortak stereo kodlama
- Parametrik stereo
- Örnek yeniden niceleme
- Doğrusal olmayan nicemleme
- Vektör nicelemesi
- Geçici gürültü şekillendirme (TNS)
- Algısal gürültü ikamesi (PNS)
- Spektral bant çoğaltması (SBR)
Birçok kodlayıcı, kodlanmış sesin çıkış bit hızını belirtilen kısıtlamalar dahilinde tutmak için bir hız kontrol algoritması içerir. Şeffaf kodlamanın istenen bit hızında elde edilemez olması durumunda, bu algoritmalar kodlama hassasiyetini değiştirecek ve böylece ses spektrumunun farklı bölümleri boyunca distorsiyona neden olacaktır. Bu ayarlama, psikoakustik modelden elde edilen veriler tarafından yönlendirilir ve hedef bit hızına ulaşılıncaya kadar devam eder.
Referanslar
Kaynaklar
Müzikal Kulak—Ses Algısı
- Müzik Kulağı—Wayback Makinesinde Ses Algısı (25.12.2005'te arşivlendi)
- Müller C, Schnider P, Persterer A, Opitz M, Nefjodova MV, Berger M (1993). "Uzay uçuşunda uygulamalı psikoakustik." Wien Med Wochenschr (Almanca). 143 (23–24): 633–5. PMID 8178525.Kaynak: TORİma Akademi Arşivi