ITU-R BS.1387

오디오 품질의 객관적 평가 방법

ITU-R BS.1387은 국제전기통신연합(ITU)에서 제정한 심리음향학 기반의 '지각적 오디오 품질 측정 표준(PEAQ, Perceived Audio Quality)'이다.

디지털 오디오 코덱(MP3, AAC 등)이나 각종 음향 프로세싱 장비를 거친 소리가 “인간의 귀로 들었을 때 원본 소스 대비 얼마나 음질 열화가 발생했는가”를 사람이 직접 청취 테스트를 하지 않고도 컴퓨터 알고리즘을 통해 수학적·객관적으로 정량화하는 전 세계 표준 규격이다.

도입 배경: 인간의 귀를 닮은 계측기의 필요성

과거 아날로그 하드웨어나 단순 디지털 장비를 계측할 때는 전 고조파 왜곡률(THD+N)이나 신호 대 잡음비(SNR) 같은 물리적인 전기 신호 측정값만으로도 충분했다.

그러나 현대의 손실 압축 코덱(MP3 등)은 심리음향학적 특성(인간이 듣지 못하는 주파수를 의도적으로 삭제하는 마스킹 효과)을 이용하기 때문에, 기존의 THD 측정기로 재면 “음질이 완전히 파괴된 쓰레기 신호“로 오인하는 한계가 있었다. 이에 따라 인간의 실제 청각 인지 매커니즘을 그대로 모사한 새로운 수학적 계측 모델로 탄생한 것이 바로 ITU-R BS.1387(PEAQ)이다.

핵심 동작 원리 및 알고리즘 심층 분석

ITU-R BS.1387 알고리즘은 원본 오디오 신호(Reference)와 변형된 오디오 신호(Test)를 동시에 입력받아 인간의 귀와 뇌가 소리를 인지하는 과정을 거쳐 최종 오차를 도출한다.

① 이소성 및 청각 모델링 (귀의 구조 모사)

외이/중이 필터링: 인간의 귓바퀴와 고막, 이소골을 지나며 특정 주파수가 자연스럽게 증폭되거나 감쇄하는 음향학적 특성을 수학적 필터로 재현한다.
달팽이관 분해능: 달팽이관의 기저막이 주파수를 필터 뱅크 형태로 쪼개는 특성을 반영하여 신호를 고유 대역(Critical Band)으로 분리한다.

② 심리음향 파라미터 추출 (라우드니스 모델 결합)

분리된 신호는 앞서 위키에 정렬해 둔 등청감 곡선(ISO 226) 및 츠비커/무어-글래스버그 라우드니스 모델의 핵심 알고리즘을 그대로 통과한다.

마스킹 플로어 연산: 큰 소리 주변의 작은 소리가 묻히는 동시 마스킹(Simultaneous Masking)과 시간 마스킹(Temporal Masking)을 연산하여, 코덱이 깎아버린 소리가 인간이 인지할 수 있는 영역인지 아닌지를 판별한다.
모델 변수 도출: 주파수별 라우드니스 차이, 변조 패턴, 고조파 구조의 변화 등 인간이 '음질 저하'로 느끼는 다수의 이동 지표(MOV, Model Output Variables)를 최종 추출한다.

최종 출력 지표: ODG(Objective Difference Grade)

알리즘의 최종 결과물은 고급 신경망(Neural Network) 연산을 통해 인간의 주관적 평가 지수와 완벽히 동기화된 ODG(객관적 차이 등급)라는 단일 점수로 출력된다.

ODG 점수	청감상 음질 열화 수준	주관적 평가 등급 (Subjective Grade)
0.0	전혀 느껴지지 않음 (Imperceptible)	5 (Excellent, 매우 우수)
-1.0	인지되나 방해되지 않음 (Perceptible, but not annoying)	4 (Good, 좋음)
-2.0	약간 방해됨 (Slightly annoying)	3 (Fair, 보통)
-3.0	방해됨 (Annoying)	2 (Poor, 나쁨)
-4.0	매우 방해됨/유실됨 (Very annoying)	1 (Bad, 매우 나쁨)

국제, 표준, ITU

목차