사용자 도구

사이트 도구


industrial_standards:iso:iso226

문서의 이전 판입니다!


ISO226

라우드니스

사람이 청감상 받아들이는 소리의 크기, 볼륨에 대한 감각적 수치

실제 소리 크기 가지는 음압(dBSPL, 물리량)과는 차이가 있을 수 있다.

DAW 미터의 값은 큰데 실제 들리는 소리는 작게 느껴지는 경우가 있다면, 이것은 바로 신호값은 크지만 라우드니스가 작기 때문이다.

소리 크기의 힘1)을 2배 증가 시키면 3dB 증가에 해당한다.2) 소리 크기의 힘을 10배 증가 시키면 10dB 증가에 해당하고, 100배 증가 시키면 20dB 증가에 해당한다.

하지만, 사람은 10dB 증가한 소리는 2배의 라우드니스로 인지한다.(통계적 연구 결과)

즉 사람이 듣기에는 어커스틱 파워가 10배 증가한 소리가 일반적으로는 2배의 소리 크기로 느껴진다.3)4)

라우드니스와 대역폭

소리의 물리적 레벨이 동일하더라도, 그 소리가 가진 대역폭이 넓어지면 인간이 느끼는 라우드니스는 훨씬 더 크게 들린다. 이는 인간의 청각 체계가 주파수를 인지할 때 바크 스케일(Bark Scale) 단위로 반응하기 때문이다.

임계 대역(Critical Band) 내부에서의 거동

소리대역폭이 달팽이관의 최소 분해 단위인 1 Bark(임계 대역) 이하로 너무 좁아지면, 대역폭의 너비가 변하더라도 라우드니스에 아무런 영향을 주지 못한다. 소리가 달팽이관 기저막의 단 하나의 채널(특정 지점)만 자극하고 있기 때문이다. 이 구간에서는 오직 물리적인 소리의 에너지 크기에 의해서만 음량이 결정된다.

임계 대역(Critical Band)을 벗어날 때의 거동

반면, 소리의 총 에너지는 똑같더라도 대역폭이 넓어져 1 Bark의 경계를 넘어서는 순간부터 라우드니스가 폭발적으로 증가하기 시작한다. 소리가 하나의 임계 대역을 탈출하여 달팽이관 내부의 인접한 다른 Bark 필터 채널들을 동시에 자극하기 때문이다.

인간의 뇌는 단일 Bark 채널이 강하게 자극받을 때보다, 복수의 Bark 채널이 넓게 동시 자극받을 때 심리음향학적으로 훨씬 더 시끄러운 소리로 인지한다. 츠비커 라우드니스 미터가 단순 RMS 방식과 달리 복잡한 복합음이나 광대역 노이즈의 시끄러움을 정확하게 잡아내는 이유가 바로 이 바크 스케일 기반의 대역폭 결합 법칙을 알고리즘에 반영했기 때문이다.

라우드니스와 지속시간

100ms 이하의 재생시간을 가진 소리들은 지속시간이 짧을수록 라우드니스가 작다.5)

ATH

Absolute Threshold of Hearing

다른 소리가 없는 상태에서 평균적인 정상 청력을 가진 인간의 귀가 듣는 최소한의 순수음의 음량을 절대 청취 임계값(ATH)라고도 불립니다. 절대 임계값은 생물체로 하여금 반응을 일으키는 음량을 나타냅니다. 절대 청취 임계값은 분명한 지점이 아니며, 따라서 특정한 시간의 응답을 일으키는 지점으로 분류됩니다.

청취 임계값은 일반적으로 1atm(기압)과 25°C에서 0.98 pW/m2에 해당하는 RMS 음압인 20µPa입니다. 이것은 손상되지 않은 청력을 가진 젊은 인간이 1,000Hz에서 감지할 수 있는 가장 조용한 소리를 대략적으로 나타냅니다. 청취 임계값은 주파수에 따라 다르며, 연구에 따르면 귀의 민감도가 2kHz에서 5kHz 사이의 주파수에서 가장 뛰어나며 임계값은 -9dBSPL로 낮아집니다.

크리티컬 밴드

크리티컬 밴드(Critical Band, 임계 대역)는 인간의 청각 기관이 주파수를 인지하고 처리하는 독립적인 최소 대역폭 격자를 의미한다. 1933년 벨 연구소(Bell Labs)의 하비 플레처(Harvey Fletcher)가 인간이 피치를 인지하는 민감도마스킹(Masking) 현상을 연구하던 중 처음으로 제안하였다.

사람은 소리대역폭에 따라 음량의 크기를 다르게 받아들인다. 소리의 총 물리적 에너지(레벨)가 같더라도 대역폭이 넓어지면 소리가 더 크게 느껴지지만, 대역폭이 좁아지다 못해 어느 한계점 이하로 작아지게 되면 더 이상 대역폭 축소에 따른 음량 변화를 느끼지 못한다. 즉, 인간이 단일 채널로 인지하는 대역폭의 최소 한계가 존재하며 이를 크리티컬 밴드라고 부른다.

생리적 원리

소리가 귀를 거쳐 달팽이관 내부로 전달되면, 기저막(Basilar Membrane)의 물리적·구조적 특성으로 인해 주파수별로 최대 공명이 일어나는 위치가 달라진다. 고음은 달팽이관 입구 부근에서, 저음은 안쪽 끝에서 공명한다. 이때 기저막의 특정 지점과 그 주변 유모세포들이 하나의 단위로서 함께 반응하는 물리적 영역이 바로 크리티컬 밴드의 실체이다.

ERB filter bank

바크 스케일

Bark Scale

1961년 독일의 음향학자 Eberhard Zwicker 박사는 하비 플레처가 발견한 크리티컬 밴드 개념을 발전시켜, 인간의 가청 주파수 영역($20\text{ Hz} \sim 20\text{ kHz}$)을 임계 대역의 크기에 맞춰 총 24개의 구간으로 정밀하게 규격화하였다. 이 24 채널의 생물학적 필터 뱅크 격자를 수치화한 심리음향학적 주파수 척도를 Bark 스케일이라고 부른다. ※ 명칭은 츠비커 박사의 스승이자 음향학자인 Heinrich Barkhausen의 이름을 땄다.

  • 물리적 환산: 1 Bark는 달팽이관 기저막 위에서 대략 $1.3\text{ mm}$의 물리적 길이에 해당하는 주파수 영역과 매칭된다.

Bark Scale그림 1

헤르츠(Hz)와의 차이점

물리적 주파수 단위인 헤르츠($\text{Hz}$)는 선형적 척도이지만, 바크 스케일은 인간의 실제 주파수 분해능을 반영하므로 고음역으로 갈수록 대역폭의 폭이 넓어지는 가변적 특성을 가진다.

  • 저음역대 ($500\text{ Hz} 이하$): 인간은 저음 변화에 민감하므로 1 Bark의 폭이 대략 $100\text{ Hz}$ 단위로 촘촘하다.
  • 고음역대 ($500\text{ Hz} 이상$): 고음으로 갈수록 분별 능력이 둔해지므로 1 Bark의 폭이 해당 중심 주파수의 약 $20\%$ 수준으로 넓어진다. ($10\text{ kHz}$ 주변에서의 1 Bark 폭은 $2\text{ kHz}$를 상회함)
핵심 개념: 물리적($\text{Hz}$) 관점에서는 고음역의 폭이 훨씬 넓어 보이지만, 인간의 달팽이관과 뇌의 입장에서는 저음의 $100\text{ Hz}$ 대역폭이나 고음의 $2\text{ kHz}$ 대역폭이나 똑같은 '1 칸(1 Bark)'짜리 정보 용량을 가질 뿐이다.

전체 24개 가청 임계 대역

가청 주파수대역을 가로로 완전히 눕혀 시각화한 바크 스케일 상세 데이터 매칭표이다. 가독성을 위해 12대역씩 분할 배치하였다.

바크 (Bark) 1 2 3 4 5 6 7 8 9 10 11 12
중심 주파수 (Hz) 50 150 250 350 450 570 700 840 1000 1170 1370 1600
차단 주파수 (Hz) 1006) 200 300 400 510 630 770 920 1080 1270 1480 1720
대역폭 (Hz) 80 100 100 100 110 120 140 150 160 190 210 240
바크 (Bark) 13 14 15 16 17 18 19 20 21 22 23 24
중심 주파수 (Hz) 1850 2150 2500 2900 3400 4000 4800 5800 7000 8500 10500 13500
차단 주파수 (Hz) 2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500
대역폭 (Hz) 280 320 380 450 550 700 900 1100 1300 1800 2500 3500

※ 24번 대역의 상한 차단 주파수 이후($15,500\text{ Hz} \sim 20,000\text{ Hz}$) 영역은 인간 초고역대 특성상 통상 하나의 확장 밴드(25번 임계 대역폭 약 $4,500\text{ Hz}$)로 취급되기도 한다.

오디오 공학 및 디지털 코덱에서의 활용

츠비커 라우드니스 미터 (Zwicker Loudness Meter)

츠비커 미터입력오디오 신호를 24개의 바크 필터 뱅크(크리티컬 밴드)에 통과시킨 뒤 연산을 시작한다. 특정 채널의 에너지가 비정상적으로 높을 경우, 인접한 채널의 에너지를 감쇄하거나 합산에서 제외하는 동시 마스킹(Simultaneous Masking) 알고리즘의 절대적인 연산 가이드라인이 된다.

지각 오디오 코딩 (MP3, AAC 등 손실 압축)

인간의 귀가 인지하는 주파수리드크리티컬 밴드 기반이라는 점을 이용한 오디오 코덱 압축 기술이다. 인코더는 디지털 오디오 신호를 각 주파수크리티컬 밴드로 사전 분할한 뒤, 강력한 신호가 들어온 밴드 주변의 미세한 주파수 성분(마스킹되어 어차피 인간이 듣지 못하는 데이터)을 과감히 삭제함으로써 음질 저하는 최소화하면서 데이터 용량을 극적으로 줄여낸다.

등청감 곡선

마스킹 효과

청각 마스킹

마스킹 효과오디오 신호 처리나 음향학에서 중요한 개념 중 하나로, 하나의 소리가 다른 소리에 의해 숨겨지거나 감춰지는 현상을 말합니다. 이는 주로 더 크고 강한 소리가 더 작고 약한 소리를 덮어버리거나 듣기 어렵게 만드는 상황에서 나타납니다.

마스킹 효과는 크게 두 가지 유형으로 나눌 수 있습니다:

  1. 시간 도메인 마스킹: 이 유형의 마스킹은 두 개의 소리가 동시에 발생하는 경우에 나타납니다. 강한 소리진폭이 크기 때문에 작은 진폭을 가진 약한 소리마스킹되어 듣기 어려워집니다. 예를 들어, 노래를 부르는 도중에 주변에서 큰 소음이 발생한다면, 그 소음이 노래의 일부 부분을 가려서 듣기 힘들게 만들 수 있습니다.
  2. 주파수 도메인 마스킹: 이 유형의 마스킹은 두 개의 소리가 서로 다른 주파수 대역에서 발생하는 경우에 나타납니다. 강한 소리가 특정 주파수 대역을 차지하면, 해당 주파수 대역에 존재하는 약한 소리가 듣기 어려워집니다. 이는 음악에서 한 악기소리가 다른 악기소리에 묻혀서 듣기 어려운 경우 등에 나타납니다.

여기서 중요한 것은, 마스킹 효과는 단순히 피크 레벨이 아닌, 소리라우드니스(loudness)에 의해 발생한다는 점입니다. 피크 레벨이 아니라 인간이 인지하는 소리의 크기, 즉 라우드니스가 큰 소리가 작은 소리를 덮어 가리게 되는 것이며, 이는 심리음향 효과의 핵심입니다.7)

마스킹 효과음향 처리에서 중요한 개념으로, 음량이 큰 소리에 의해 음량이 작은 소리가 가려져 들리지 않게 되는 현상입니다. 이러한 마스킹 효과MP3와 같은 손실 압축 코덱에서 파일 크기를 줄이기 위해 활용됩니다. 압축 코덱 알고리즘은 소리마스킹 현상을 분석해, 들리지 않는 소리를 삭제하는 방식으로 파일을 압축합니다. 이를 통해 음악 파일의 크기를 줄이면서도 소리의 질을 가능한 한 유지할 수 있습니다.

Phon

폰(Phon)은 인간의 귀로 느끼는 '주관적인 음량의 크기(Loudness Level)'를 나타내는 심리음향학적 단위이다. 물리적인 음압 레벨($\text{dB SPL}$)이 주파수에 따른 인간 청각의 민감도를 반영하지 못하는 한계를 해결하기 위해 고안되었다.

정의 및 기준점

Phon 단위는 인간이 소리를 인지할 때 주파수별로 민감도가 다르다는 점에 착안하여, $1\text{ kHz}$ 순음(Pure Tone)을 절대적인 기준으로 삼아 정의한다.

“어떤 주파수소리든 간에, $1\text{ kHz}$ 순음의 $X\text{ dB SPL}$ 크기와 동일한 시끄러움으로 느껴진다면 그 소리의 크기는 $X\text{ Phon}$이다.”
  • 예시: 어떤 $50\text{ Hz}$의 저음이 너무 작게 들려서 물리적 볼륨을 $80\text{ dB SPL}$까지 올렸을 때, 마침내 $1\text{ kHz}$ 신호를 $60\text{ dB SPL}$로 틀었을 때와 똑같은 크기로 인지되었다면, 그 $50\text{ Hz}$ 저음의 심리음향학적 크기는 60 Phon이 된다.
  • 이러한 주파수별 동일 음량 기준점들을 선으로 연결한 지도를 등청감 곡선(Equal-Loudness Contours)이라고 부른다.

역사와 발전

창시: Fletcher & Munson

1933년

Phon 단위와 등청감 곡선의 개념을 처음 정립한 사람은 미국의 음향학자 Harvey FletcherWilden A. Munson이다. 이들은 벨 연구소(Bell Labs)에서 수많은 피험자를 대상으로 주파수별 체감 음량 테스트를 진행하여 최초의 등청감 곡선인 Fletcher & Munson(플레처-먼슨 곡선)을 발표하고 Phon 단위를 도입했다.

정밀화: Eberhard Zwicker

독일의 심리음향학자 Eberhard Zwicker 박사는 초기 플레처-먼슨 곡선이 가진 저음역 및 고음역대의 측정 오차를 현대적인 실험을 통해 정밀하게 보정했다. Eberhard Zwicker 박사의 연구 데이터는 국제표준화기구의 공식 표준인 ISO 226으로 채택되며 Phon 단위의 정확성을 완성시켰다.

일상적 소음 환경과의 비교

Phon 수치 체감 음량 수준 일상 생활에서의 예시
0 Phon 청각 한계 인간이 들을 수 있는 가장 조용한 소리
20 Phon 극도로 조용함 나뭇잎 부딪히는 소리, 귓속말
40 Phon 조용함 도서관, 한적한 주택가의 심야
60 Phon 보통 일상적인 대화 소리, 평범한 사무실
80 Phon 시끄러움 번화가의 교통 소음, 진공청소기 가동 소리
100 Phon 매우 시끄러움 지하철 통과 소음, 록 콘서트장 스피커 앞, 마스터링된 현대 상업 음원8)
120 Phon 고통 한계 전투기 이착륙 소음 (귀에 통증이 시작되는 레벨)

Sone

Sone은 인간이 몸으로 체감하는 주관적인 소리의 크기를 직관적으로 나타내기 위해 고안된 선형 심리음향학 단위이다. 에버하르트 츠비커 박사를 비롯한 심리음향학자들이 기존 Phon 단위가 가진 인간의 직관과의 불일치를 해결하기 위해 정립하였다.



탄생 배경: Phon(로그 스케일)의 한계

기존의 Phon 단위는 데시벨($\text{dB}$) 체계를 그대로 차용했기 때문에 로그 스케일(Logarithmic Scale)을 따른다. 인간의 뇌는 물리적 에너지가 10배($+10\text{ dB}$) 증가할 때마다 “소리가 2배 커졌다”고 인지하는 특성이 있다.

  • 불일치 사례: $40\text{ Phon}$과 $50\text{ Phon}$은 수치상으로 겨우 10 차이지만, 실제 인간이 느끼기에는 정확히 2배 더 시끄럽다.
  • 해결책:소리를 절반으로 줄여야 한다”, “2배 더 키워야 한다”를 오디오 공학 및 소음 분석 실무에서 직관적으로 계산하기 위해, '수치의 배수'가 곧 '체감 음량의 배수'가 되는 선형 척도인 Sone 단위가 도입되었다.

정의 및 기준점

Sone 단위의 기준점은 인간이 가장 편안하게 받아들이는 조용한 음량 수준을 기준으로 삼는다.

“1 Sone은 조용한 주택가 수준인 $40\text{ Phon}$의 시끄러움을 기준으로 정의한다.”
(물리적으로는 $1\text{ kHz}$ 순음을 $40\text{ dB SPL}$ 레벨출력했을 때 인간이 느끼는 크기)

기준점을 중심으로 체감 음량은 정비례하여 산출된다.

  • $2\text{ Sone}$: 1 Sone보다 정확히 2배 시끄러운 소리 ($50\text{ Phon}$)
  • $4\text{ Sone}$: 1 Sone보다 정확히 4배 시끄러운 소리 ($60\text{ Phon}$)
  • $0.5\text{ Sone}$: 1 Sone보다 정확히 절반으로 줄어든 소리 ($30\text{ Phon}$)

Phon과 Sone의 수치 변환 매칭표

인간의 청각 체계가 10 Phon 상승할 때마다 2배로 시끄럽게 인지한다는 법칙(Weber-Fechner 법칙의 변형)을 기준으로 환산한 데이터 테이블이다.

Phon (로그 스케일) Sone (선형 체감 척도) 체감 음량 배수 일상적인 예시
30 Phon 0.5 Sone 1 Sone의 절반 크기 아주 조용한 귓속말
40 Phon 1 Sone 체감 음량의 기준 조용한 도서관, 주택가 심야
50 Phon 2 Sone 2배 시끄러움 한적한 주택가의 낮
60 Phon 4 Sone 4배 시끄러움 일반적인 대화 소리, 평범한 사무실
70 Phon 8 Sone 8배 시끄러움 시끄러운 사무실, 전화 벨소리
80 Phon 16 Sone 16배 시끄러움 진공청소기 가동음, 번화가 소음
90 Phon 32 Sone 32배 시끄러움 대형 트럭/버스 통과 소음
100 Phon 64 Sone 64배 시끄러움 지하철 통과 소음, 마스터링 완료된 현대 음악
2)
소리 크기의 신호량을 2배 증가 시키면 6dB 증가에 해당한다.
3)
DAW믹싱 콘솔에서도 동일하다 10dB증감을 하게 되면 결국 모니터 스피커로 10dB 증감된 소리가 나오게 되므로 결국 똑같이 2배의 소리 크기 증감으로 느껴진다.
4)
통계적으로 그렇다는 것이다.
5)
100ms 이상의 지속시간인 소리들에는 관련 없음
6)
20Hz~
7)
라우드니스는 단순히 소리피크 레벨과는 다릅니다. 피크 레벨이 높아도 그 소리가 인간의 귀에 크게 들리지 않을 수 있으며, 반대로 피크 레벨이 낮아도 인간의 귀에 크게 들수 있습니다. 따라서 마스킹 현상은 절대적인 피크 레벨보다는 인간이 인지하는 소리의 크기, 즉 라우드니스에 더 많이 좌우됩니다.
8)
마스터링 엔지니어 밥 카츠(Bob Katz) 등의 연구에 따르면, 음압 전쟁(Loudness War)을 거친 현대 팝/EDM 상업 음반들은 극단적인 다이내믹 압축과 중고역($2\text{ kHz} \sim 5\text{ kHz}$) 강조로 인해 실측 시 록 콘서트 수준인 95~105 Phon의 강력한 청각적 압박감을 유발하는 것으로 보고되어 있다.
로그인하면 댓글을 남길 수 있습니다.

[공지]회원 가입 방법
[공지]글 작성 및 수정 방법

industrial_standards/iso/iso226.1783169790.txt.gz · 마지막으로 수정됨: 저자 정승환