목차
MP3
MPEG audio layer-3 포맷, 손실 압축 방식.
원래는 동영상 포맷인 MPEG-1, 및 MPEG-2 에 사용되는 오디오 압축 형식이다.
독일 Fraunhofer Society에서 연구 및 개발.
128kbps, 192kbps, 320kbps 등은 비트레이트, bps(bit per seconds), 즉 초당 bit 전송률을 이야기 하는 것으로, 높은 숫자일수록 파일 용량이 크며 음질 손실이 덜하다. WAV 파일들의 비트레이트가 1411kbps(16bit 44.1kHz) 나 4600kbps(24bit 48kHz) 정도 하는 것에 비해 MP3의 비트레이트는 그의 1/10~20의 수준인 192kbps, 320kbps 등으로 매우 용량이 작다. 아주 많이 손실 압축함을 알 수 있다.
손실
MP3의 손실 압축 기법은 심리음향 분석 및 인간의 청각 인지 능력에 의해서 일반적으로 사람이 들을 수 없는, 또는 청취가 힘들다고 예상되는 오디오 정보를 삭제하여, 용량을 줄이게 된다.
이에 따라, CD의 음질인 16bit 44.1kHz 스테레오에 비하여 용량을 75%~95%까지 줄이는 것이 가능해진다.(예를 들면 CD의 1411kbps → 128kbps)
크리티컬 밴드
크리티컬 밴드(Critical Band, 임계 대역)는 인간의 청각 기관이 주파수를 인지하고 처리하는 독립적인 최소 대역폭 격자를 의미한다. 1933년 벨 연구소(Bell Labs)의 하비 플레처(Harvey Fletcher)가 인간이 피치를 인지하는 민감도와 마스킹(Masking) 현상을 연구하던 중 처음으로 제안하였다.
사람은 소리의 대역폭에 따라 음량의 크기를 다르게 받아들인다. 소리의 총 물리적 에너지(레벨)가 같더라도 대역폭이 넓어지면 소리가 더 크게 느껴지지만, 대역폭이 좁아지다 못해 어느 한계점 이하로 작아지게 되면 더 이상 대역폭 축소에 따른 음량 변화를 느끼지 못한다. 즉, 인간이 단일 채널로 인지하는 대역폭의 최소 한계가 존재하며 이를 크리티컬 밴드라고 부른다.
생리적 원리
소리가 귀를 거쳐 달팽이관 내부로 전달되면, 기저막(Basilar Membrane)의 물리적·구조적 특성으로 인해 주파수별로 최대 공명이 일어나는 위치가 달라진다. 고음은 달팽이관 입구 부근에서, 저음은 안쪽 끝에서 공명한다. 이때 기저막의 특정 지점과 그 주변 유모세포들이 하나의 단위로서 함께 반응하는 물리적 영역이 바로 크리티컬 밴드의 실체이다.
바크 스케일
Bark Scale
1961년 독일의 음향학자 Eberhard Zwicker 박사는 하비 플레처가 발견한 크리티컬 밴드 개념을 발전시켜, 인간의 가청 주파수 영역($20\text{ Hz} \sim 20\text{ kHz}$)을 임계 대역의 크기에 맞춰 총 24개의 구간으로 정밀하게 규격화하였다. 이 24 채널의 생물학적 필터 뱅크 격자를 수치화한 심리음향학적 주파수 척도를 Bark 스케일이라고 부른다. ※ 명칭은 츠비커 박사의 스승이자 음향학자인 Heinrich Barkhausen의 이름을 땄다.
- 물리적 환산: 1 Bark는 달팽이관 기저막 위에서 대략 $1.3\text{ mm}$의 물리적 길이에 해당하는 주파수 영역과 매칭된다.
헤르츠(Hz)와의 차이점
물리적 주파수 단위인 헤르츠($\text{Hz}$)는 선형적 척도이지만, 바크 스케일은 인간의 실제 주파수 분해능을 반영하므로 고음역으로 갈수록 대역폭의 폭이 넓어지는 가변적 특성을 가진다.
- 저음역대 ($500\text{ Hz} 이하$): 인간은 저음 변화에 민감하므로 1 Bark의 폭이 대략 $100\text{ Hz}$ 단위로 촘촘하다.
- 고음역대 ($500\text{ Hz} 이상$): 고음으로 갈수록 분별 능력이 둔해지므로 1 Bark의 폭이 해당 중심 주파수의 약 $20\%$ 수준으로 넓어진다. ($10\text{ kHz}$ 주변에서의 1 Bark 폭은 $2\text{ kHz}$를 상회함)
전체 24개 가청 임계 대역
가청 주파수 전 대역을 가로로 완전히 눕혀 시각화한 바크 스케일 상세 데이터 매칭표이다. 가독성을 위해 12대역씩 분할 배치하였다.
| 바크 (Bark) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 중심 주파수 (Hz) | 50 | 150 | 250 | 350 | 450 | 570 | 700 | 840 | 1000 | 1170 | 1370 | 1600 |
| 차단 주파수 (Hz) | 1001) | 200 | 300 | 400 | 510 | 630 | 770 | 920 | 1080 | 1270 | 1480 | 1720 |
| 대역폭 (Hz) | 80 | 100 | 100 | 100 | 110 | 120 | 140 | 150 | 160 | 190 | 210 | 240 |
| 바크 (Bark) | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 중심 주파수 (Hz) | 1850 | 2150 | 2500 | 2900 | 3400 | 4000 | 4800 | 5800 | 7000 | 8500 | 10500 | 13500 |
| 차단 주파수 (Hz) | 2000 | 2320 | 2700 | 3150 | 3700 | 4400 | 5300 | 6400 | 7700 | 9500 | 12000 | 15500 |
| 대역폭 (Hz) | 280 | 320 | 380 | 450 | 550 | 700 | 900 | 1100 | 1300 | 1800 | 2500 | 3500 |
※ 24번 대역의 상한 차단 주파수 이후($15,500\text{ Hz} \sim 20,000\text{ Hz}$) 영역은 인간 초고역대 특성상 통상 하나의 확장 밴드(25번 임계 대역폭 약 $4,500\text{ Hz}$)로 취급되기도 한다.
오디오 공학 및 디지털 코덱에서의 활용
츠비커 라우드니스 미터 (Zwicker Loudness Meter)
츠비커 미터는 입력된 오디오 신호를 24개의 바크 필터 뱅크(크리티컬 밴드)에 통과시킨 뒤 연산을 시작한다. 특정 채널의 에너지가 비정상적으로 높을 경우, 인접한 채널의 에너지를 감쇄하거나 합산에서 제외하는 동시 마스킹(Simultaneous Masking) 알고리즘의 절대적인 연산 가이드라인이 된다.
지각 오디오 코딩 (MP3, AAC 등 손실 압축)
청각 마스킹
어떤 한 주파수의 소리가 크면 그 인근의 작은 주파수는 잘 들리지 않는 현상. 따라서 MP3에서는 이러한 잘 들리지 않는 주파수는 삭제하여 데이터를 줄인다.
크리티컬 밴드중에 어느 하나의 소리가 크고 바로 옆 인근의 크리티컬 밴드의 소리가 작으면 소리가 작은 크리티컬 밴드의 데이터는 삭제한다.
Brick Wall LPF
가청 주파수는 일반적으로 20Hz~20kHz 라고 정의 되지만,
일반인 사람의 경우 16kHz 이상의 주파수는 청각적으로 인지되기 힘들기 때문에, 특정 kbps 이하의 MP3에서는 16kHz 이상의 주파수를 제거한다.
손실 압축의 부작용
손실 압축의 방식은 주파수 대역을 각각의 크리티컬 밴드로 필터를 통해 나누고, 여러가지 오디오 데이터에 손실을 가하는 형식이므로, 인코딩 알고리즘에 따라 조금씩 다르지만, 약간의 노이즈를 생성하기도 한다.
그런 대표적인 노이즈를 Swirlies라고 한다.
이러한 Swirlies의 발생 정도를 측정해 보면 MP3의 인코딩 방식보다 AAC의 인코딩 방식이 우수한 것으로 보인다.
메타데이터
MP3 파일에는 음악의 제목, 아티스트, 앨범, 트랙번호 , 파일 내용에 대한 기타 정보를 같이 저장할 수 있다. MP3 의 메타데이터 형식에는 ID3v1, ID3v2 가 있고, 최근에는 APEv2 라는 데이터 형식도 사용한다.
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법
















