문서의 이전 판입니다!
목차
PCM
앨리어싱 에러
Aliasing error
사람의 일반적인 가청 주파수는 20Hz-20kHz입니다. 사람이 듣는 가청 주파수의 소리를 디지털로 저장하려면 20Hz-20kHz 범위의 소리를 정확히 디지털화해야 합니다. 나이퀴스트-섀넌 샘플링 정리에 따르면, 20kHz의 소리를 제대로 디지털로 샘플링하려면 최소 1 주기(cycle)당 2개의 샘플을 취득해야 하므로 40kHz 이상의 샘플링 속도가 필요합니다. 다시 말해, 어떤 주파수를 디지털로 샘플링한 후 원래 소리로 복원하려면 해당 주파수의 두 배 이상의 샘플링 속도를 사용해야 합니다.
그러나 이 과정에서 중요한 조건은 20kHz 이상의 소리가 입력되지 않도록 해야 한다는 점입니다. 자연계에는 20kHz 이상의 소리도 존재하며, 이를 필터링하지 않으면 디지털 샘플링 시 앨리어싱이 발생할 수 있습니다. 예를 들어, 30kHz의 소리를 40kHz로 샘플링하면, 나이퀴스트 기준을 만족하지 못해 아래 그림과 같이 엉뚱한 신호로 복원될 수 있습니다. 이러한 왜곡 현상을 앨리어싱 에러라고 부릅니다.
안티 앨리어싱 필터
Anti-Aliasing Filter
안티 앨리어싱 필터는 디지털 신호 처리에서 앨리어싱(Aliasing)을 방지하기 위해 사용하는 필터입니다. 아날로그 신호를 디지털로 변환할 때, 샘플링 주파수의 절반을 초과하는 주파수 성분은 잘못된 정보로 기록될 수 있습니다. 이를 앨리어싱이라고 하며, 신호가 왜곡되어 원래의 신호와 다른 주파수 성분으로 나타나는 현상입니다.
안티 앨리어싱 필터는 샘플링 이전에 아날로그 신호에서 샘플링 주파수의 절반을 초과하는 고주파 성분을 제거하는 역할을 합니다. 이렇게 하면 앨리어싱 현상을 방지하고, 원래 신호를 보다 정확하게 디지털로 변환할 수 있습니다. 일반적으로 저역 통과 필터(Low-Pass Filter)가 사용되며, 컷오프 주파수는 샘플링 주파수의 절반인 나이퀴스트 주파수로 설정됩니다.
그러나 실제 필터는 이상적이지 않으며, 완벽하게 20kHz 이상의 소리를 제거하지 못합니다. 필터의 기울기를 가파르게 설계하면 고주파 차단 성능이 향상되지만, 이로 인해 필터의 다른 성능(노이즈 플로어, 위상 왜곡 등)이 저하될 수 있습니다.
위의 Butterworth 필터 예시를 보면, 20kHz에서 -60dB의 감쇠를 이루려면 이론적으로 60kHz 이상의 샘플링 레이트가 필요할 수 있습니다. 하지만 현실적으로 필터는 -60dB까지 감쇠할 뿐, 완벽하게 제거하지는 못하므로, 앨리어싱이 일부 남아 노이즈 플로어로서 존재하게 됩니다.
비트 심도
bit depth
비트 심도는 디지털 오디오 시스템에서 샘플의 진폭을 얼마나 정밀하게 표현할 수 있는지를 결정하는 핵심 요소입니다. 이는 곧 다이내믹 레인지와 해상도에 직접적인 영향을 미치며, 오디오의 전체적인 품질과 밀접한 관련이 있습니다.
bit
A-D converting
4dBu 를 기준으로 헤드룸을 18dB 를 준 아날로그 입력을 디지털로 변환하는 A-D 컨버터 기준으로 예를 들면
아날로그 신호 | Vpp(peak) |
---|---|
22dBu | 27.581673844 Vpp |
4dBu | 3.47232701Vpp |
0dBu | 2.19089023Vpp |
-100dBu | 0.000021909 Vpp |
-122dBu | 0.00000174 Vpp |
-infinity | 0 Vpp |
즉 V (전압) 의 범위는 -122dBu ~ 22dBu 까지 0.00000174v~ 27.581673844v
즉 약 144dB의 범위에서
가장 큰 전압과 가장 작은 전압의 차이를 표현할 때 자리수의 범위는 “최소” 8자리가 필요하다.(소수점 -6자리 부터 소수점 위로 +2자리까지) 하지만, 자리수가 더 많아지면 더 자세한 표현이 가능하다. 24bit 가 144dB 표현이 가능하다는 말은 “최소” 라는 전제조건이 붙는 것이다.
dBFS
dB full scale
디지털 심도 포맷에 따라서 표현 가능한 최대값이 다 다르기 때문에(16bit:96dB, 24bit:144dB), 최대값이 통일이 안되어서 거꾸로 0을 최대값으로 - 단위로 표기한다. 또한 심도에 따라 표현 범위도 다 다르기 때문에 그 범위를 Full Scale 로 표현하게 된다. 일반적인 레퍼런스 레벨은 -18dBFS(24bit & above), -12dBFS(16bit)이다.
최대값의 진폭(Amplitude)의 절반값을 가지는 지점을 -6dBFS로 정해서, 값을 정한다. 다시 말해서 24bit(144dB) 던, 16bit(96dB)던, 48bit(288dB)이건 상관 없이 최대값을 0dBFS, 절반값을 -6dBFS로 정하기 때문에, 디지털 심도의 차이는 “해상도“의 차이로 나타난다.1)
위의 표는 10V 를 각기 4bit, 16bit, 24bit 등으로 A-D 컨버팅 했을 때의 분해능, 해상도를 나타낸다.
https://en.wikipedia.org/wiki/DBFS
The level of 0 dBFS is assigned to the maximum possible digital level.[2] For example, a signal that reaches 50% of the maximum level has a level of −6 dBFS, which is 6 dB below full scale. Conventions differ for root mean square (RMS) measurements, but all Peak measurements smaller than the maximum are negative levels.
쉽게 요약하면 Full scale 은 지도에서 말하는 “축척” 과 같은 개념이다. 따라서 높은 심도는 파형을 더 세밀하고 자세하게 표현하게 된다. 2)
DSP 엔진
DAW
Cubase나 Logic 등의 DAW 에서 32bit 부동소수 포맷으로 프로젝트를 설정하고 사용하는 경우, 24bit로 녹음된 오디오는 추가로 8자리의 부동소수 표현을 위한 비트를 추가로 얻게 된다.
따라서, DAW 내부적으로 파형의 진폭이 0dBFS 이상으로 크게 변화하는 경우에도 클리핑 현상이 일어나지 않고 오디오 프로세싱이 가능하다.
24bit로 녹음된 데이터를 DAW에서 32bit 부동소수 포맷으로 사용할 시 레퍼런스 레벨인 -18dBFS를 기준으로 변환하기 때문에 해상도에 영향을 미치게 된다. 즉 예를 들면 24bit에서 32bit 부동소수로 변환 시 가장 큰 신호값인 0dBFS는 0dBFS로 일치하도록, -18dBFS는 그도 역시 32bit 부동소수 포맷의 -18dBFS로 full scale을 유지하게 된다. 그에 따라 시그널 처리의 해상도가 증가하게 된다. 기존 데이터의 값에는 변함이 없었지만 그 다음에 이 데이터를 가지고 DSP 처리를 하게 되면 더 세밀하고 정밀한 처리가 들어가게 되는 것이다.3)
특히, 이퀄라이저나 컴프레서와 같은 시그널 프로세서에서는 10dB, 20dB와 같은 높은 증폭 및 감쇄가 필요한 DSP 연산을 하게 된다. 20dB 정도이면 실제 디지털 숫자로는 큰 단위의 연산(100배 증폭 및 감쇄)이므로 심도가 상당히 중요하다고 볼 수 있다.
Fixed point dynamic range comparison
https://www.analog.com/-/media/analog/en/landing-pages/relationship-of-data-word-size/figure7.gif?la=en
정수 VS 부동소수
정수형 연산(Integer)과 부동소수형 연산(Floating point)을 비교하면, 정수형 연산의 장점은 부동소수형 연산보다 연산 클럭 수가 적게 들어가서 레이턴시 부분에서 유리하다.는 점이다. 하지만 최근에는 부동소수 DSP의 발전으로 인하여 큰 차이는 없다.
반면 부동소수점의 장점은, 매우 높은 해상도이다. 위에 항목들에서 설명했듯이 소수점을 유동적으로 변경할 수 있는 숫자 표시 양식 때문에, 부동소수점으로 표현할 수 있는 가장 큰 숫자는 정수형에서 표현할 수 있는 가장 큰 숫자보다 훨씬 큰 수를 표현하는 것이 가능하다.
레이턴시에 관한 문제 때문에, DSP 칩을 주력으로 사용하는 디지털 믹싱 콘솔이나, 디지털 시그널 프로세서들의 경우에는 40비트나 56비트 정수형 DSP를 사용하는 경우가 있지만 점점 32비트 부동소수형 DSP 또는 CPU 기반으로 바뀌는 추세이다.
Reference
나이퀴스트 정리
오버샘플링
Oversampling
아날로그 필터만을 안티 앨리어싱 필터로 사용하는 것은 현실적인 어려움이 있기 때문에, 추가로 오버샘플링이란 기술을 사용하기도 한다.
아날로그만으로 가장 성능 좋은 필터를 쓰는 것도 기술 및 비용 상 어려울 수 있다. 장비의 제작 비용이 올라갈 수 있고, 필터의 부가 효과인 위상 왜곡4)이 발생할 수 있다.
아날로그 안티 앨리어싱 필터의 경우 20kHz 대역을 제거하기 위해 20kHz 대역을 컷오프 프리퀀시 로 설정하여 필터를 걸면 위의 그림과 같이 필터가 걸린다. 그런데 20kHz 대역 이상의 주파수 성분들이 칼같이 잘려서 제거되는 것이 아니다. 필터의 기울기가 완만함에 의해 20kHz 이상에도 아직 찌꺼기 주파수 성분들이 남아 있음을 알 수 있다.
따라서, 48KHz를 목표로 하는 샘플링을 진행할 때, 4배인 192kHz로 샘플링을 하면 앨리어싱 필터의 기울기가 완만해서 발생하는 20kHz~192kHz 사이의 걸러지지 않은 찌꺼기 주파수들에 의한 앨리어싱 에러가 줄어들게 된다. 그런 후에 48kHz로 다시 다운 샘플링을 하여 목표했던 앨리어싱 에러가 큰 폭으로 줄어들은 48kHz 결과물을 얻게 된다.
다만 샘플레이트를 몇 배로 곱해서 샘플링하기 때문에 고성능의 워드 클럭 기술이 필요하게 된다. 따라서 PLL 등의 워드 클럭 기술이 적용된다.
Oversampled Clipping Demo
Reference
양자화
Quantization
양자5)는 더 이상 나눌 수 없는 최소값을 뜻한다. PCM 방식의 신호 디지털 컨버팅에서 연속된 값인 아날로그를 최소 단위의 불연속 값으로 재정의하는 것을 말한다.
양자화
표본화
리컨스트럭션 필터
Reconstruction filter, Anti-imaging filter
리컨스트럭션 필터는 디지털-아날로그 컨버터(DAC)에서 디지털 신호를 아날로그 신호로 변환한 후, 그 결과를 부드럽게 재생하기 위해 사용되는 필터입니다. 디지털 신호는 샘플링된 점들의 불연속적인 데이터로 이루어져 있기 때문에, 이를 아날로그 신호로 변환하면 계단 모양의 파형이 생성됩니다. 이러한 불연속적인 샘플들 사이의 빈 공간을 부드럽게 연결하는 것이 리컨스트럭션 필터의 역할입니다.
리컨스트럭션 필터는 저역 통과 필터(Low-Pass Filter)로 설계되며, 신호에 포함된 샘플링 주파수 이상의 고주파 성분을 제거하여 원래의 부드러운 아날로그 파형을 복원합니다. 디지털 샘플링 과정에서 발생한 고주파 노이즈나 왜곡을 제거하는데 필수적이며, 특히 음향 신호 처리에서 중요한 역할을 합니다. 이를 통해 계단형 파형을 자연스러운 아날로그 파형으로 변환하여, 고품질의 사운드를 재생할 수 있게 합니다.
요약하자면, 리컨스트럭션 필터는 DAC에서 디지털로 샘플링된 신호를 아날로그 신호로 복원할 때, 샘플링 과정에서 생긴 고주파 성분을 제거하여 부드럽고 연속적인 아날로그 신호로 변환하는 필터입니다.
샘플링 레이트
44.1kHz
영상 포맷과의 호환성을 고려하여 가청 주파수 20kHz 의 두배인 40kHz 이상6)을 가지면서 비디오 형식인 NTSC와 PAL 동시 호환이 가능한7) 샘플링 레이트를 CD 표준으로 정했다.
NTSC
PAL
48kHz
Sony가 개발한 DAT(Digital Audio Tape)의 최고 샘플링 레이트가 48kHz 였다.
CD의 디지털 스펙은 16bit 44.1kHz 이지만, DAT의 스펙은 24bit 48kHz이었다. 16bit의 경우 96dB의 다이내믹 레인지 구현만 하면 되기 때문에 안티 앨리어싱 필터의 성능이 중요하지 않았다. 사실상 필터가 미쳐 걸러내지 못한 높은 주파수 대역으로 안한 앨리어싱 에러 노이즈는 -96dBFS 아래에 있었기 때문에 드러나지 않았다. 하지만 24bit의 경우 144dB의 최대 다이내믹 레인지를 가지고 있어서 안티 앨리어싱 필터의 성능이 좋을 필요성이 있었다. 아직도 필터의 성능의 한계로 이론상의 144dB의 다이내믹 레인지는 실현은 불가능하다. 성능좋은 컨버터들은 120dB 정도의 다이내믹 레인지로 구현되고 있다.
Sony DAT는 A-D 컨버터 회로에 들어가는 안티 앨리어싱 필터로 20Hz 컷오프 프리퀀시로 시작해서 24kHz까지 떨어지는 필터를 채택했고 기기도 거기에 맞춰서 48kHz의 샘플레이트로 작동했다. 이 A-D 컨버터는 기존의 44.1kHz의 샘플레이트로 동작하는 A-D 컨버터보다 음질이 우수했다.10)
녹음실에서 믹스를 완료한 후 스테레오 트랙을 받는 용도로 DAT 레코더들이 쓰였고 DAT로 담긴 믹스 완성본을 마스터링 스튜디오에서 마스터링 과정을 거쳐 마스터 CD로 만들었다.(근데 CD는 44.1kHz 사양이다. 그래서, 마스터링 스튜디오에서 CD에 담기 위해 샘플레이트 변환작업을 하였다.)
또한 녹음실에 아주 많이 보급되었던 Alesis의 디지털 멀티 트랙 레코더인 ADAT도 DAT의 사양 그대로 48kHz를 채용했다.
이러한 이유 때문에 48kHz는 한참 동안 녹음실의 표준 샘플링 레이트로 쓰이고 있다.
Sony DAT
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법