사용자 도구

사이트 도구


acoustics:psychoacoustics:start
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법

문서의 이전 판입니다!


심리 음향학

심리 음향학(Psychoacoustics)은 소리와 인간의 인지 및 감각 체계 간의 상호 작용을 연구하는 학문 분야입니다. 이 분야는 소리가 어떻게 들리고 인간의 뇌와 청각 시스템이 소리를 처리하는지를 이해하는 데 중점을 둡니다. 심리 음향학음악, 음향, 음성 처리, 소음 제어, 청각 장애 및 음향 기술 등 다양한 응용 분야에서 중요한 역할을 합니다. 이를 통해 우리는 소리에 대한 지각과 인식을 이해하고, 음향 기술음향 디자인을 개발하는 데 도움을 얻을 수 있습니다.

Psychoacoustics

Psychoacoustics is a field of study that examines the interaction between sound and the human cognitive and sensory systems. This discipline focuses on understanding how sounds are perceived and how the human brain and auditory system process sound. Psychoacoustics plays a crucial role in various applications, including music, sound, speech processing, noise control, auditory disorders, and acoustic technology. Through psychoacoustics, we gain insights into the perception and cognition of sound, contributing to the development of acoustic technology and sound design.

바이노럴 효과

바이노럴 효과음향 체험에서 사용되는 개념으로, 두 귀를 통해 들리는 음향의 차이를 활용하여 입체적이고 현실적인 사운드를 재현하는 효과입니다. 바이노럴 효과는 인간의 양쪽 귀에 다르게 들리는 소리의 차이를 이용하여 공간적인 음향 정보를 전달하는 방식입니다.

바이노럴 효과헤드폰을 통해 듣는 사람에게 음향이 어떻게 들리는지 실제로 재현할 수 있습니다. 이를 위해 음향 신호는 왼쪽과 오른쪽 귀로 별도로 전달되어야 합니다. 일반적으로 헤드폰에 재생되는 각 채널소리는 왼쪽과 오른쪽 귀에서 들리는 시간 차, 강도 차, 위상 차 등을 고려하여 조정됩니다.

바이노럴 효과를 통해 사운드는 실제로 발생하는 위치와 유사한 위치에서 들리는 것처럼 느껴집니다. 예를 들어, 헤드폰을 통해 바이노럴 효과를 적용한 음악이나 자연 소리를 들을 때, 소리의 방향과 거리, 공간적인 환경 등을 현실적으로 인지할 수 있습니다.

바이노럴 효과는 가상 현실(VR), 게임, 음악 제작, 음향 디자인 등 다양한 분야에서 활용됩니다. 가상 현실 환경에서는 바이노럴 효과를 적용하여 사용자에게 현실적인 음향 경험을 제공하고, 게임이나 영화에서는 입체적이고 몰입감 있는 사운드를 구현하는 데에 사용됩니다. 또한, 음악 제작에서는 바이노럴 효과를 이용하여 공간감을 부여하거나, 음향 디자인에서는 실제 환경의 사운드를 재현하는 데에 활용됩니다.

Binaural effect

The binaural effect is a concept used in auditory experiences to reproduce three-dimensional and realistic sound by leveraging the differences in sound heard through two ears. The binaural effect is a method of conveying spatial auditory information by utilizing the differences in sound perceived by the human ears.

The binaural effect can accurately replicate how sound is heard by people through headphones. To achieve this, audio signals must be delivered separately to the left and right ears. Typically, the sounds played through the channels of headphones are adjusted by considering factors such as time differences, intensity variations, and phase differences heard in the left and right ears.

Through the binaural effect, sound is perceived as coming from positions that closely resemble their actual sources. For example, when listening to music or natural sounds with the binaural effect applied through headphones, listeners can realistically perceive factors like the direction of sound, distance, and spatial environment.

The binaural effect finds applications in various fields, including virtual reality (VR), gaming, music production, and sound design. In virtual reality environments, the binaural effect is applied to provide users with realistic auditory experiences. In games and movies, it is used to create immersive and three-dimensional sound. Furthermore, in music production, the binaural effect can add spatial depth, and in sound design, it is utilized to recreate real-world soundscapes.

칵테일 파티 효과

칵테일 파티 효과는 인간의 청각 시스템이 복잡한 환경에서 특정한 소리나 음성을 감지하고 주의를 집중시키는 능력을 나타내는 현상을 말합니다. 이 용어는 주로 사람들이 많이 모여있는 파티나 혼잡한 환경에서도 특정 음성을 뚜렷하게 듣는 능력을 설명하기 위해 사용됩니다.

칵테일 파티 효과는 다음과 같은 특징을 가지고 있습니다:

  1. 분리된 음성 인식: 복잡한 환경에서 여러 소리가 섞여 나오는 상황에서도 인간은 특정 음성을 듣고 분별할 수 있습니다. 이는 우리의 두 귀와 뇌가 협력하여 소리의 강도, 주파수, 시간차 등을 분석하여 원하는 음성을 인식하는 결과입니다.
  2. 주의 집중: 주변 소음이나 다른 음성들을 무시하고 원하는 음성에 주의를 집중할 수 있는 능력입니다. 이는 뇌의 청각 인지 능력과 관련이 있습니다.
  3. 공간적 분리: 칵테일 파티 효과는 우리의 양 귀가 서로 다른 방향에서 들리는 소리를 받아들일 수 있는 능력과도 관련이 있습니다. 이를 통해 우리는 어떤 소리가 어느 방향에서 나오는지 인지하고 분별할 수 있습니다.

이러한 칵테일 파티 효과의 능력은 음성 인식 기술의 발전과도 관련이 있으며, 음성 인식 기술소음이 있는 환경에서도 특정 음성을 식별하고 이해하는 능력을 향상시키는 데 사용됩니다.

The cocktail party effect

The cocktail party effect refers to the phenomenon that demonstrates the human auditory system's ability to detect and focus attention on specific sounds or voices in complex environments. This term is commonly used to describe the capability to distinctly hear a particular voice even in crowded or noisy gatherings.

The cocktail party effect exhibits the following characteristics:

  1. Separated Speech Recognition: Even in situations where multiple sounds are mixed together in a complex environment, humans can hear and distinguish specific voices. This results from the collaborative analysis of sound attributes such as intensity, frequency, time delays, etc., by our two ears and the brain.
  2. Selective Attention: The ability to ignore surrounding noise or other voices and concentrate attention on the desired voice. This is closely related to the brain's auditory perception capabilities.
  3. Spatial Separation: The cocktail party effect is also associated with our ability to perceive and discriminate sounds coming from different directions, thanks to our two ears. This allows us to discern from which direction a sound is originating.

The proficiency of the cocktail party effect has implications in the advancement of speech recognition technology, enabling it to identify and comprehend specific voices even in noisy environments.

크리티컬 밴드

1933년 Bell Labs의 Harvey Fletcher는 피치에 대한 인간의 민감도, 마스킹마스킹사운드주파수마스킹 사운드주파수와의 관계를 이해하는 데 도움이 되는 방법으로 임계 대역 지정을 제안 했습니다.

사람은 소리의 대역폭에 따라 각기 다른 소리의 크기로 받아들이는데, 소리의 대역폭이 크면 클수록 소리도 크게 느껴지게 된다. 하지만, 그 대역폭이 작아지면 작아질수록 소리가 작게 느껴지게 되는데, 어느 한계점 이상으로 작아지게 되면 그 변화를 느끼지 못한다. 즉 인간이 인지 가능한 대역폭의 최소 한계이다. 그러한 최소의 대역폭을 크리티컬 밴드라고 한다.

MP3 인코딩에서는 마스킹 되는 소리를 삭제하기 위해 사전에 대역폭을 각 주파수 별로 크리티컬 밴드로 나눈다.

ERB filter bank

Critical bandwidth

People perceive sound at different loudness levels depending on the bandwidth of the sound. When the bandwidth of sound is wider, it tends to be perceived as louder. However, as the bandwidth decreases, the sound is perceived as quieter. There is a certain point beyond which further reductions in bandwidth go unnoticed by humans. This point represents the minimum bandwidth that humans can perceive, and it is referred to as the critical bandwidth.

In MP3 encoding, the critical bandwidth is used to divide the frequency spectrum into different critical bandwidths to remove masked sounds beforehand.

선행음 효과

50ms 이하의 짧은 딜레이는 간격이 매우 짧아서 에코처럼 느껴지지 않는다.

모노소리를 스플릿하여 두개로 만든 다음 좌/우로 패닝하고 한쪽 채널에 50ms이하의 딜레이를 주면 소리는 인위적이긴 해도 스테레오로 들리게 된다.1)

Haas 효과를 이용한 딜레이는 다음과 같은 원리로 작동합니다.

  • 딜레이(Time Delay): 사운드소리의 속도로 이동합니다. 딜레이사운드 신호를 한 소스에서 다른 소스로 전송하는 데 소요되는 시간을 나타냅니다.
  • 스테레오 청취: 사람의 양 귀는 서로 다른 방향에서 들어오는 소리를 감지하여 두 소리가 도달하는 시간 차이를 인식할 수 있습니다. 이를 통해 뇌는 소리의 방향성과 거리를 판단합니다.

딜레이를 활용한 Haas 효과는 다음과 같이 작동합니다:

  • 중앙 위치 소리: 사운드를 중앙에서 오는 것으로 듣는 사람들은 그 소리가 바로 뇌에 도달한다고 느낄 것입니다.
  • 측면 위치 소리: 사운드를 한 쪽에서 먼저 듣는 경우, 뇌는 이 쪽에서 들어오는 소리가 먼저 도착한 것으로 판단하게 됩니다. 따라서 그 소리는 그 방향에서 온 것처럼 들릴 것입니다.

이를 응용하면, 딜레이를 이용하여 스피커를 통해 소리를 내보낼 때 두 스피커 사이의 시간 차이를 두면 듣는 이들은 그 소리가 더 먼 곳에서 오는 것처럼 들을 수 있습니다. 이를 통해 음향 공간을 조작하거나 사운드의 위치를 조절하여 듣는 이에게 더욱 풍부한 청취 경험을 제공할 수 있습니다.

딜레이를 이용한 Haas 효과음향 디자인, 음악 제작, 영화 제작 등 다양한 분야에서 활용되며, 공간적인 감각을 더욱 풍부하게 만드는 데 큰 역할을 합니다.

Hass Effect

Delays of less than 50ms are so brief that they don't create an echo-like effect.

By splitting a mono sound into two and panning them left and right, then applying a delay of less than 50ms to one channel, the sound, while artificially created, becomes perceptible as stereo.

The delay effect using the Haas effect operates on the following principles:

  • Time Delay: Sound travels at the speed of sound. Delay represents the time it takes to transmit a sound signal from one source to another.
  • Stereo Listening: Human ears can detect sounds coming from different directions, perceiving the time difference at which two sounds arrive. This allows the brain to determine the directionality and distance of sounds.

The Haas effect, utilizing delay, functions as follows:

  • Centered Sound: Listeners perceiving a sound as coming from the center will feel that the sound reaches their brain directly.
  • Lateral Sound: When a sound is heard from one side first, the brain interprets it as if it arrived from that direction. Therefore, the sound will appear to come from that direction.

By applying a delay, one can make listeners perceive the sound as coming from a more distant location between two speakers. This technique is used to manipulate auditory spaces or adjust the position of sounds, providing a richer listening experience to the audience.

The delay-based Haas effect is applied in various fields, including sound design, music production, and filmmaking, to enhance the perception of spatial dimensions, enriching the overall auditory experience.

라우드니스

사람이 청감상 받아들이는 소리의 크기에 대한 감각적 수치

실제 소리 크기 가지는 음압(dBSPL, 물리량)과는 차이가 있을 수 있다.

DAW 미터의 값은 큰데 실제 들리는 소리는 작게 느껴지는 경우가 있다면, 이것은 바로 신호값은 크지만 라우드니스가 작기 때문이다.

소리 크기의 힘2)을 2배 증가 시키면 3dB 증가에 해당한다.3) 소리 크기의 힘을 10배 증가 시키면 10dB 증가에 해당하고, 100배 증가 시키면 20dB 증가에 해당한다.

하지만, 사람은 10dB 증가한 소리는 2배의 라우드니스로 인지하고 100dB 증가한 소리는 4배의 라우드니스로 인지한다.

즉 사람이 듣기에는 힘이 10배 증가한 소리가 일반적으로는 2배의 소리 크기로 느껴진다.4)5)

이런 사람의 인지 특성에 맞춘 단위로 sone 을 사용하기도 하는데, 거의 사용하지는 않는다. 40phon 을 1 Sone 으로 정의하여 10dB 증가한 50phon= 2sone 이 된다.


Loudness

Loudness is a perceptual measurement of the magnitude of sound as perceived by the human auditory system. It can differ from the actual sound magnitude, which is measured in sound pressure level (dBSPL), a physical quantity.

In cases where the meter values in a Digital Audio Workstation (DAW) indicate high levels of sound, but the perceived loudness is low, it is because the signal values are large, but the perceived loudness is relatively small.

Increasing the power of sound by a factor of 2 corresponds to a 3dB increase. Increasing the power of sound by a factor of 10 corresponds to a 10dB increase, and increasing it by a factor of 100 corresponds to a 20dB increase.

However, humans perceive sound in a way that a 10dB increase in sound power is perceived as a doubling of loudness, while a 100dB increase is perceived as a fourfold increase in loudness.

In other words, a sound with ten times the power is generally perceived as being only twice as loud. To account for these perceptual characteristics, a unit called “sone” is sometimes used, although it is not commonly employed. It defines 40 phon as 1 Sone, so a 10dB increase from 40 phon to 50 phon would equal 2 sones.

  • Sone is a unit based on the loudness ratio perceived by humans.

사람의 귀의 다이나믹 레인지

10-12w/m2, 0dBSPL(1000Hz) 에서 ~1w/m2, 120dB (전 주파수 대역) 사이
0dBSPL(ATH) 이하의 소리는 대부분의 사람은 인지할 수 없고, 120dBSPL 이상의 지속적인 소리는 청력을 손상 시킬 수 있다.

ATH

Absolute Threshold of Hearing

다른 소리가 없는 상태에서 평균적인 정상 청력을 가진 인간의 귀가 듣는 최소한의 순수음의 음량을 절대 청취 임계값(ATH)라고도 불립니다. 절대 임계값은 생물체로 하여금 반응을 일으키는 음량을 나타냅니다. 절대 청취 임계값은 분명한 지점이 아니며, 따라서 특정한 시간의 응답을 일으키는 지점으로 분류됩니다.

청취 임계값은 일반적으로 1대 기압과 25°C에서 0.98 pW/m2에 해당하는 RMS 음압인 20 마이크로파스칼입니다. 이것은 손상되지 않은 청력을 가진 젊은 인간이 1,000Hz에서 감지할 수 있는 가장 조용한 소리를 대략적으로 나타냅니다. 청취 임계값은 주파수에 따라 다르며, 연구에 따르면 귀의 민감도가 2kHz에서 5kHz 사이의 주파수에서 가장 뛰어나며 임계값은 -9 dBSPL로 낮아집니다.

가청 주파수 영역

Audibel frequency range

사람의 귀로 인지 가능한 주파수 영역.

20Hz ~ 20kHz

JND

Just Noticeable Difference, 최소 식별차.
사람의 감각이 인지할 수 있는 가장 최소의 인지 단위.
라우드니스에 대한 JND : 약 1dB (일반적인 소음환경, 순음(Sine파), 1kHz)

등청감곡선

Equal Loudness Curve, ISO226

등청감곡선에 관한 연구는 Bell 연구소의 fletcher munson6)에 의해 시작되었고, 그 후 Robinson과 Dadson에 의해 제시된 등청감곡선(Equal Loudness Curve)이 국제 표준(ISO226)으로 자리 잡았다.

Phon

라우드니스의 단위

등청감곡선 기준으로 정해지며 1kHz에서의 dBSPL의 값에 해당한다. 같은 Phon을 가지는 소리는 사람이 같은 소리 크기로 인지한다.
ex). 10 Phon의 경우 1kHz에서는 10dBSPL, 20Hz에서는 75dBSPL에 해당하며, 10dBSPL의 1kHz소리와 75dBSPL의 20Hz 소리는 사람의 귀에 같은 소리 크기로 인지된다.

라우드니스와 대역폭

위 그림의 각기 다른 대역폭과 각기 다른 소리 크기를 가진 소리들이 어떤 라우드니스를 가지는지 보여주고 있다. 소리레벨이 동일해도 대역폭이 넓으면 라우드니스가 크게 들린다.

대역폭이 크리티컬 밴드 이하로 너무 좁아지면 대역폭의 너비에 의한 라우드니스 영향은 사라진다.

라우드니스와 지속시간

100ms 이하의 지속시간에 해당하는 소리들은 지속시간이 짧을수록 라우드니스가 작다.

마스킹 효과

음량이 다양한 여러가지 소리들이 동시에 날 때, 음량이 큰 소리에 음량이 작은 소리가 가려져서 들리지 않는 현상.

MP3 와 같은 손실 압축 코덱들이 주로 사용하는 현상이기도 하다. 압축 코덱 알고리즘이 분석하여 마스킹된다고 판단되어 들리지 않는 소리들을 삭제 하는 방식의 손실 압축이 주로 사용 된다.

마스킹 효과오디오 신호 처리음향학에서 중요한 개념 중 하나로, 하나의 소리가 다른 소리에 의해 숨겨지거나 감춰지는 현상을 말합니다. 이는 주로 더 크고 강한 소리가 더 작고 약한 소리를 덮어버리거나 듣기 어렵게 만드는 상황에서 나타납니다.

마스킹 효과는 크게 두 가지 유형으로 나눌 수 있습니다:

  1. 시간 도메인 마스킹: 이 유형의 마스킹은 두 개의 소리가 동시에 발생하는 경우에 나타납니다. 강한 소리진폭이 크기 때문에 작은 진폭을 가진 약한 소리마스킹되어 듣기 어려워집니다. 예를 들어, 노래를 부르는 도중에 주변에서 큰 소음이 발생한다면, 그 소음이 노래의 일부 부분을 가려서 듣기 힘들게 만들 수 있습니다.
  2. 주파수 도메인 마스킹: 이 유형의 마스킹은 두 개의 소리가 서로 다른 주파수 대역에서 발생하는 경우에 나타납니다. 강한 소리가 특정 주파수 대역을 차지하면, 해당 주파수 대역에 존재하는 약한 소리가 듣기 어려워집니다. 이는 음악에서 한 악기소리가 다른 악기소리에 묻혀서 듣기 어려운 경우 등에 나타납니다.

마스킹 효과음향 처리에서 중요한 역할을 합니다. 예를 들어, 오디오 압축 알고리즘은 마스킹 효과를 이용하여 음악 파일 크기를 줄이면서도 가능한 한 소리의 질을 유지합니다. 마스킹 효과를 이해하고 고려함으로써 음향 신호 처리음향 디자인에서 원하는 결과를 얻을 수 있습니다.

Masking effect

Masking effect occurs when various sounds with different volume levels are present simultaneously, causing quieter sounds to be masked or unheard by louder ones. It is a phenomenon often utilized by lossy compression codecs like MP3, where the compression algorithm analyzes and identifies sounds that are masked, resulting in the removal of inaudible sounds.

The masking effect is a crucial concept in audio signal processing and acoustics, describing situations where one sound is hidden or made less perceptible by another sound, typically when a louder and stronger sound overwhelms or makes it difficult to hear a softer one.

The masking effect can be broadly categorized into two types:

  1. Time-domain masking: This type of masking occurs when two sounds happen concurrently. The strong sound with a larger amplitude masks the weaker sound with a smaller amplitude, making it harder to perceive. For instance, if a loud noise occurs in the background while singing, it can mask parts of the song and make them less audible.
  2. Frequency-domain masking: This type of masking occurs when two sounds occupy different frequency ranges. When a strong sound occupies a particular frequency band, weaker sounds within that frequency band become less audible. This can happen in music when one instrument's sound is masked by another instrument's sound, making it challenging to distinguish.

Understanding the masking effect plays a significant role in audio processing. For example, audio compression algorithms leverage the masking effect to reduce the size of music files while preserving sound quality as much as possible. By considering and comprehending the masking effect, desired outcomes can be achieved in audio signal processing and acoustic design.

기음 누락 효과

기음 누락 효과(Missing fundamental effect)는 오디오 인식 및 청취에 관련된 현상 중 하나입니다. 이 현상은 주파수 스펙트럼에서 기음이 누락되었음에도 불구하고, 상위 배음수들이 존재함으로써 사람들이 주파수를 인지하는 방식에 대한 것입니다.

기음 누락 효과는 주로 음악에서 발생하며, 악기가 발생시키는 소리의 특징 중 하나입니다. 일반적으로, 음악 악기주파수의 다양한 배음수를 생성합니다. 예를 들어, 주파수가 100Hz악기배음수에는 200Hz, 300Hz, 400Hz 등이 있습니다. 그러나 때로는 기본 주파수(100Hz)가 실제로 누락되어도 상위 배음수만으로도 해당 주파수를 인식할 수 있습니다.

이는 인간의 청각 시스템이 기본 주파수를 추정하기 위해 상위 배음수들을 처리하고 결합하는 경향이 있기 때문에 발생합니다. 즉, 청각 시스템은 오디오 입력에서 상위 배음수들의 조합을 기반으로 기본 주파수를 재구성하려고 시도합니다. 이런 현상은 기본 주파수가 없더라도 인간이 음악을 인식하는 데 영향을 미칠 수 있습니다.

기음 누락 효과음악이나 소리의 강도, 음색, 품질 등을 이해하고 설명하는 데 중요한 역할을 합니다. 또한 음악음향 기술에서는 이러한 현상을 고려하여 소리의 생성과 처리를 설계하고 최적화하는 데 활용됩니다.


Missing Fundamental effect

The missing fundamental effect is a phenomenon related to audio perception and listening. This phenomenon occurs when the fundamental frequency is absent from the frequency spectrum, yet the higher harmonics are present, allowing people to perceive the fundamental frequency.

The missing fundamental effect is primarily observed in music, as musical instruments produce a variety of harmonics along with the fundamental frequency. For example, an instrument with a fundamental frequency of 100Hz will have harmonics at 200Hz, 300Hz, 400Hz, and so on. However, sometimes the fundamental frequency (100Hz) may be missing, yet the presence of higher harmonics alone can still lead to the perception of that frequency.

This occurs because the human auditory system tends to estimate the fundamental frequency by processing and combining the higher harmonics present in the audio input. Thus, even in the absence of the fundamental frequency, the human auditory system attempts to reconstruct it based on the combination of higher harmonics. This phenomenon can influence how humans perceive music even in the absence of the fundamental frequency.

The missing fundamental effect plays a crucial role in understanding and describing the intensity, timbre, and quality of music and sound. Additionally, it is utilized in music and audio technology to design and optimize sound generation and processing considering this phenomenon.

Reference

셰퍼드 톤

셰퍼드 톤은 오디오 혹은 음악에서 인간의 청각 시스템을 현혹시키는 현상 중 하나입니다. 이 현상은 반복적으로 올라가거나 내려가는 음계를 듣는 동안, 끝없이 상승하거나 하강하는 것처럼 들리는 오디오 일련의 현상을 말합니다.

셰퍼드 톤은 주로 스펙트럼이 여러 옥타브에 걸쳐 동일한 비율로 증가하거나 감소하는 특징을 가지고 있습니다. 이로 인해 듣는 이는 음계가 지속적으로 상승하거나 하강하는 것으로 인식하게 됩니다. 그러나 실제로는 소리의 높낮이가 일정하게 유지되는 것이 특징입니다.

셰퍼드 톤는 인간의 청각 시스템이 연속적으로 증가하거나 감소하는 음을 인식하는 방식에 기반합니다. 인간의 청각 시스템은 높낮이가 일정한 음을 듣는 동안, 높은 주파수에서 낮은 주파수로 이동함에 따라 음이 상승하거나 하강하는 것으로 해석합니다.

셰퍼드 톤는 영화 음악음향 효과에서 사용되어 끊임없이 상승 또는 하강하는 긴장감을 제공하거나, 인식적인 효과증폭시키는 데 활용됩니다. 또한 Shepard tone은 심리학 실험에서 사용되어 인간의 인식 및 지각에 대한 연구에도 활용됩니다.

Shepard tone

The Shepard tone is a phenomenon in audio or music that deceives the human auditory system. It refers to a sequence of audio that sounds like it is continually ascending or descending endlessly.

The Shepard tone typically has the characteristic of the spectrum increasing or decreasing across multiple octaves at a constant ratio. This creates the perception that the scale is continuously rising or falling. However, in reality, the pitch of the sound remains constant.

The Shepard tone is based on how the human auditory system perceives continuously rising or falling sounds. Our auditory system interprets the sound as ascending or descending while the pitch remains constant.

The Shepard tone is often used in film music and sound effects to provide a sense of constant tension or to enhance perceptual effects. Additionally, it is utilized in psychological experiments to study human perception and cognition.

평활화

Smoothing

측정된 주파수 반응을 좀더 매끄럽게(Smooth) 표현하는 방식

주파수 반응smoothing(평활화)은 데이터의 불규칙성이나 잡음을 제거하여 그래프나 차트를 부드럽게 만드는 과정을 말합니다. 이는 데이터를 분석하거나 시각화할 때 잡음이나 변동을 줄이고 패턴을 뚜렷하게 표현하기 위해 사용됩니다.

일반적으로, 주파수 반응Smoothing주파수 영역에서의 불규칙한 변동이나 잡음을 제거하여 주파수 응답 곡선을 부드럽게 만듭니다. 이는 주파수 영역에서의 세부적인 특성을 보다 명확하게 파악할 수 있도록 도와줍니다.

주파수 반응smoothing음향 기기나 음향 장비의 특성을 분석하거나 보정할 때 중요한 역할을 합니다. Smoothing주파수 응답은 음질을 개선하거나 장비의 성능을 향상시키는 데 도움이 됩니다.

1/3 Octave Smoothing

스피커 보정을 할 때 스피커주파수 반응을 1/3 Octave Smoothing을 하는 이유

사람은 소리의 크기를 인지할 그 소리의 대역폭에도 영향을 받아 소리 크기를 인지한다. 즉 같은 음량의 소리라도, 그 소리의 대역폭이 넓으면 큰소리로, 그 소리의 대역폭이 좁으면 작은 소리로 인지하는데, 어느 정도의 대역폭 이하가 되면 대역폭의 너비와 소리의 크기가 상관이 없어진다.

실험적으로 사람이 인지하는 크리티컬 대역폭은 전 주파수에서 27개의 대역폭으로 나눈 구간을 사용하고 있습니다.

사람의 가청 주파수 대역인 20~20000Hz를 계산해보면, 10개의 옥타브인 것을 알 수 있습니다.

  • 20Hz → 40Hz : 1옥타브
  • 40Hz → 80Hz : 2옥타브
  • 80Hz → 160Hz : 3옥타브
  • 160Hz → 320Hz : 4옥타브
  • 320Hz → 640Hz : 5옥타브
  • 640Hz → 1280Hz : 6옥타브
  • 1280Hz → 2560Hz : 7옥타브
  • 2560Hz → 5120Hz : 8옥타브
  • 5120Hz → 10240Hz : 9옥타브
  • 10240Hz → 20480Hz : 10옥타브

대략 인간의 가청 주파수 영역은 10개의 옥타브로 이루어져 있음을 알 수 있습니다. 따라서 크리티컬 대역에서 말하는 24개의 주파수 밴드를 적용하려면 대략 27~30개 정도의 구간으로 나누는 것이 필요합니다. 1/2 Octave Smoothing은 구간을 20개로 나눈 것 이므로 이에 맞지 않습니다. 1/6 Octave Smoothing의 경우는 구간을 60개로 나누게 되서 필요 이상으로 이퀄라이저 연산 또는 회로 자원이 많이 필요하게 됩니다. 그래서, 가장 적당한 1/3 Octave Smoothing을 적용하면 30개 구간으로 나눌 수 있습니다. 따라서, 사람의 귀에 들리는 것과 비슷한 주파수 반응을 얻어낼 수 있습니다. 이 이상의 Smoothing 데이터는 사람의 귀의 인지 한계를 넘어선 데이터라고 할 수 있습니다. 그래서 그렇게 적용해서 이퀄라이저를 적용해봤자 시스템 자원 낭비가 될 가능성이 높고, 사람은 인지를 할 수 없습니다. 별로 의미가 없습니다. 7)

따라서, 룸 보정 이퀄라이저를 적용할 때는 1/3 Octave Smoothing을 적용한 주파수 반응 그래프를 기준으로 하여 적용하는 것이 일반적입니다. 1/6 Octave Smoothing을 적용하여 좀 더 세밀하게 해도 무방합니다.

이는 대부분의 스피커 보정 용도의 그래픽 이퀄라이저나 GLM, SoundID와 같은 룸 보정 시스템들이 1/3 Octave Smoothing 위주로 판단하는 이유이기도 합니다.

1/24 Octave Smoothing

장비의 주파수 반응의 스펙을 표기할 때는 1/24 Octave Smoothing으로 표기하는 것이 바람직합니다.

장비의 마켓팅에서 매끄러운 주파수 반응을 가지는 것처럼 보이게 하기 위해 Smoothing을 과하게 적용하는 경우는 대중들의 눈을 속이는 행위가 될 수도 있습니다. 1/3, 1/6 Octave Smoothing으로 장비의 스펙을 표기 하지 않도록 노력해야 합니다.

Psychoacoustic Smoothing

Psychoacoustic Smoothing 이라는 진보된 Smoothing 방법도 있습니다. 이는 사람의 청감각 특성에 좀 더 부합하는 방법으로 Smoothing을 적용하게 됩니다.

REW Manual

Psychoacoustic smoothing uses 1/3 octave below 100Hz, 1/6 octave above 1 kHz and varies from 1/3 octave to 1/6 octave between 100 Hz and 1 kHz. It also applies more weighting to peaks by using a cubic mean (cube root of the average of the cubed values) to produce a plot that more closely corresponds to the perceived frequency response

Psychoacoustic smoothing은 100Hz 아래의 1/3 Octave, 1 kHz 이상의 1/6 Octave를 사용하며, 100Hz에서 1kHz 사이에서는 1/3 Octave에서 1/6 Octave로 변합니다. 또한 뾰족한 부분에 더 많은 가중치를 부여하기 위해 큐브 평균(세 번 제곱 값의 평균의 세제곱근)을 사용하여 플롯을 생성하여 인지된 주파수 응답에 더욱 가깝도록 합니다.

* 요약 : 사람의 청각 인지 특성에 더 가깝게 표기하는 방법이다.

Reference

1)
좌/우로 패닝소리라고 해도 딜레이를 주지 않으면 양쪽의 소리가 같기 때문에 소리는 그냥 모노로 합쳐져서 들린다.
3)
소리 크기의 신호량을 2배 증가 시키면 6dB 증가에 해당한다.
4)
DAW믹싱 콘솔에서도 동일하다 10dB증감을 하게 되면 결국 모니터 스피커로 10dB 증감된 소리가 나오게 되므로 결국 똑같이 2배의 소리 크기 증감으로 느껴진다.
5)
평균적으로 그렇다는 것이다. 사람마다 개인 차이는 있을 수 있다. 민감한 사람은 더 크게 받아들이며 둔감한 사람은 더 작게 받아들인다.
6)

fletcher-munson curve
7)
물론 엄격하게 1/24 Octave Smoothing을 적용한 데이터를 기반으로 이퀄라이저를 적용할 수도 있습니다만, 사람은 1/3 Octave Smoothing을 기반으로 한 보정과의 차이를 전혀 인지할 수 없습니다.
로그인하면 댓글을 남길 수 있습니다.
검색
[홈레코딩 필독서]"모두의 홈레코딩"구매링크


acoustics/psychoacoustics/start.1695017895.txt.gz · 마지막으로 수정됨: 2023/09/18 저자 정승환