음향:industrial_standards:itu:itu-r_bs_1770
[홈레코딩 필독서]"모두의 홈레코딩"구매링크
가성비 있는 녹음실 찾으시나요? 리버사이드 재즈 스튜디오에서 녹음하세요!
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법
차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판이전 판다음 판 | 이전 판 | ||
음향:industrial_standards:itu:itu-r_bs_1770 [2025/08/25] – ↷ 문서 이름이 음향:industrial_standards:itu:itu-r_bs_1770에서 음향:industrial_standards:itu:itu-r_bs_1770-1(으)로 바뀌었습니다 정승환 | 음향:industrial_standards:itu:itu-r_bs_1770 [2025/09/13] (현재) – 정승환 | ||
---|---|---|---|
줄 1: | 줄 1: | ||
+ | ======ITU-R BS.1770====== | ||
+ | Algorithms to measure audio **programme loudness** and **True-peak** audio level | ||
+ | |||
+ | LUFS 미터는 소리 크기의 범위 및 True-peak를 표기 하도록 만들어진 라우드니스 미터입니다. LUFS 미터의 작동에 대한 알고리즘 및 세부 사항은 ITU-R BS.1770 에서 정의되어 있습니다. | ||
+ | |||
+ | 사람이 청감상 인지하는 소리 크기, 즉 라우드니스를 수치로 **최대한 비슷하게 현실화**하기 위해서 K-weighted 가중치를 고려한 필터를 사용하고, | ||
+ | |||
+ | {{ 20250602-105730.png }} | ||
+ | |||
+ | ====이름과 단위==== | ||
+ | |||
+ | ITU-R BS.1770은 다음과 같은 명명 규칙 및 단위 규칙을 제안합니다. 기준 레벨과 관련된 값인 Loudness Unit(1LU 는 1dB)과 같은 상대 측정 값입니다. | ||
+ | |||
+ | * LUFS: 절대값, **L**oudness **U**nit Relative to **F**ull **S**cale | ||
+ | * LU : 상대값((ex)0LU=-23LUFS)), | ||
+ | * 1LU = 1dB의 레벨 증감과 동일합니다. | ||
+ | |||
+ | > | ||
+ | |||
+ | ====k-weighting==== | ||
+ | |||
+ | K-weighting filter는 인간의 청각 특성을 반영해 설계된 주파수 가중치 필터로, 사람이 잘 듣는 주파수(특히 1~4kHz 대역)를 강조하고, | ||
+ | |||
+ | <WRAP group centeralign> | ||
+ | <WRAP half column> | ||
+ | {{20250602-110035.png}}\\ | ||
+ | Pre-filter | ||
+ | </ | ||
+ | <WRAP half column> | ||
+ | {{20250602-110049.png}}\\ | ||
+ | RLB filter | ||
+ | </ | ||
+ | </ | ||
+ | |||
+ | {{ 20250602-110445.png }} | ||
+ | |||
+ | |||
+ | |||
+ | =====Integrated Loudness===== | ||
+ | |||
+ | Integrated Loudness는 곡의 시작부터 끝까지, 즉 전체 재생 구간에 걸쳐 소리 크기의 평균을 계산한 값을 LUFS(라우드니스 유닛 풀 스케일) 단위로 표기합니다. 이 값은 곡의 전반적인 소리 크기(라우드니스)를 대표하며, | ||
+ | 게이트 알고리즘이 적용되어 있어, 무음 구간이나 매우 조용한 부분은 측정에서 제외됩니다. 예를 들어, 곡의 클라이맥스 부분만 측정하면 평소보다 훨씬 큰 값이 나올 수 있으므로, | ||
+ | >실제 마스터링이나 방송, 스트리밍 플랫폼에서 권장되는 기준값은 Integrated(Program) LUFS 값입니다. 예를 들어, “이 곡은 -10LUFS입니다”라고 하면 곡 전체의 평균 라우드니스가 -10LUFS임을 의미합니다 | ||
+ | |||
+ | =====Short-Term Loudness===== | ||
+ | |||
+ | Short-Term Loudness는 곡의 특정 구간(보통 3초) 동안의 평균 소리 크기를 매 1초마다 표기한 값입니다. 이 방식은 곡의 중간중간, | ||
+ | 최고값이 미터의 왼쪽에 표기되며, | ||
+ | >즉, 곡 전체의 평균(Integrated)과 달리, 짧은 구간에서의 음량 변화를 실시간으로 볼 수 있습니다. | ||
+ | |||
+ | {{음향: | ||
+ | |||
+ | =====Momentary Loudness===== | ||
+ | |||
+ | Momentary Loudness는 400ms(0.4초) 동안의 순간적인 소리 크기를 100ms마다 측정한 값의 최대값을 표기합니다. 이 값은 아주 짧은 시간 동안의 음량 변화를 파악할 때 사용됩니다. | ||
+ | 예를 들어, 드럼의 강한 한 박, 신스의 짧은 하이라이트 등 순간적으로 소리가 커지는 부분을 측정할 때 유용합니다. | ||
+ | Momentary Loudness는 전체 곡의 평균이나 3초 단위의 Short-Term과 달리, 순간순간의 소리 크기를 빠르게 확인할 수 있습니다. | ||
+ | |||
+ | =====Loudness Range===== | ||
+ | |||
+ | **Loudness Range(라우드니스 레인지, LRA)**는 곡 전체에서 소리가 가장 큰 부분과 가장 조용한 부분 사이의 차이를 LU(라우드니스 유닛)로 표기합니다. 이 값은 곡의 다이내믹 레인지를 의미하며, | ||
+ | 측정 시, 가장 조용한 부분의 상위 10%와 가장 큰 부분의 상위 5%는 제외되어, | ||
+ | >즉, Loudness Range는 곡의 전체적인 소리 크기 변화 폭을 보여주며, | ||
+ | |||
+ | =====True-peak===== | ||
+ | |||
+ | {{page> | ||
+ | |||
+ | =====Reference====== | ||
+ | |||
+ | * https:// | ||
+ | |||
+ | {{tag> | ||
+ | |||
+ | ======ITU-R BS.1770(실제 문서)====== | ||
+ | |||
+ | **Algorithms to measure audio programme loudness and true-peak audio level** | ||
+ | |||
+ | =====서문===== | ||
+ | 무선통신 분야의 역할은 모든 무선통신 서비스(위성 서비스를 포함)의 합리적이고, | ||
+ | 무선통신 분야의 규제 및 정책 기능은 세계 및 지역 무선통신 회의와 무선통신 총회에서 수행되며, | ||
+ | |||
+ | ====범위==== | ||
+ | 본 권고는 주관적 프로그램 라우드니스와 트루피크 신호 레벨을 결정하기 위한 오디오 측정 알고리즘을 규정한다. | ||
+ | |||
+ | ====키워드==== | ||
+ | 3/2 멀티채널 사운드 시스템, 고급 사운드 시스템, 라우드니스, | ||
+ | |||
+ | ITU 무선통신 총회는 다음을 고려한다: | ||
+ | * a) 현대의 디지털 음향 전송 기술이 매우 넓은 다이내믹 레인지를 제공하는 점; | ||
+ | * b) 현대의 디지털 음향 제작 및 전송 기술이 권고 ITU-R BS.775에 명시된 모노, 스테레오 및 3/2 멀티채널 포맷과 권고 ITU-R BS.2051에 명시된 메타데이터와의 결합을 포함한 채널 기반, 객체 기반, 씬 기반의 입력 신호 및 그 조합을 제공하며, | ||
+ | * c) 청취자들이 다양한 소스와 프로그램 유형에 대해 오디오 프로그램의 주관적 라우드니스가 균일하기를 바라는 점; | ||
+ | * d) 오디오 레벨을 측정하는 다양한 방법이 존재하지만, | ||
+ | * e) 프로그램 교환의 라우드니스 제어를 위해 청취자 불편을 줄이기 위해 주관적 라우드니스의 객관적 추정을 위한 단일 권장 알고리즘이 필수적이라는 점; | ||
+ | * f) 향후 심리음향 모델 기반의 복잡한 알고리즘이 다양한 오디오 프로그램에 대해 향상된 객관적 라우드니스 측정값을 제공할 수 있다는 점; | ||
+ | * g) 디지털 미디어는 갑자기 오버로드되며, | ||
+ | 추가로, | ||
+ | * a) 필터링 또는 비트레이트 감소와 같이 일반적으로 적용되는 과정에 의해 피크 신호 레벨이 증가할 수 있다는 점; | ||
+ | * b) 기존 미터링 기술이 디지털 신호에 포함된 트루피크 레벨을 반영하지 못하는데, | ||
+ | * c) 디지털 신호 처리가 신호의 트루피크 레벨을 근접하게 추정할 수 있는 알고리즘 구현을 실용적으로 만든다는 점; | ||
+ | * d) 트루피크 레벨의 표시 알고리즘 사용이 디지털 오디오 신호의 피크 레벨과 클리핑 레벨 사이의 헤드룸을 정확히 나타낼 수 있게 함을, | ||
+ | |||
+ | 권고한다 | ||
+ | |||
+ | - 권고 ITU-R BS.775에 따라 최대 다섯 개 메인 채널(모노, | ||
+ | - 권고 ITU-R BS.2051에 명시된 채널 구성과 같이, 더 많은 채널로 제작된 오디오 프로그램의 라우드니스를 객관적으로 측정해야 할 때 Annex 3에 규정된 알고리즘을 사용할 것; | ||
+ | - 객체 기반 오디오 신호 또는 채널- 및 객체 기반 오디오 신호의 조합의 라우드니스를 객관적으로 측정해야 할 때 Annex 4에 규정된 알고리즘을 사용할 것; | ||
+ | - 프로그램 제작 및 후반 제작에서 프로그램 라우드니스 표시를 위해 사용하는 방법은 Annex 1, 3, 4에 규정된 알고리즘을 기반으로 할 수 있음; | ||
+ | - 디지털 오디오 신호의 트루피크 레벨 표시가 필요할 때, Annex 2에 명시된 가이드라인을 기반으로 하거나, 유사하거나 더 우수한 결과를 제공하는 방법을 사용할 것; | ||
+ | |||
+ | 추가 권고 | ||
+ | |||
+ | - Annex 1, 3, 4에 명시된 알고리즘보다 성능이 현저히 향상된 새로운 라우드니스 알고리즘이 나타날 경우, 본 권고를 업데이트할 필요성에 대해 고려할 것; | ||
+ | - 씬 기반 오디오 프로그램에 대해 라우드니스 측정을 가능하게 하는 새로운 알고리즘이 개발될 때 본 권고를 업데이트할 것; | ||
+ | |||
+ | >참고 1 – 사용자는 측정된 라우드니스가 주관적 라우드니스의 추정치이며, | ||
+ | |||
+ | >참고 2 – 본 권고에 따라 미터의 적합성 시험을 위해, ITU-R BS.2217 보고서에 기술된 세트의 테스트 자료를 사용할 수 있다. | ||
+ | |||
+ | ======Annex 1====== | ||
+ | |||
+ | **Specification of the objective multichannel loudness measurement algorithm** | ||
+ | |||
+ | 본 부록은 멀티채널 라우드니스 측정 모델링 알고리즘을 명세한다. | ||
+ | |||
+ | 알고리즘은 네 단계로 구성된다: | ||
+ | * “K” 주파수 가중치 적용; | ||
+ | * 각 채널의 평균 제곱 계산; | ||
+ | * 채널 가중 합산 (서라운드 채널은 더 큰 가중치를 가지며, LFE 채널은 제외됨); | ||
+ | * 400ms 블록 게이팅 (75% 중첩), 여기서 두 개의 임계값이 사용된다: | ||
+ | * 첫 번째는 −70 LKFS; | ||
+ | * 두 번째는 첫 번째 임계값 적용 후 측정된 레벨 대비 −10 dB. | ||
+ | |||
+ | 그림 1은 알고리즘의 여러 구성 요소들에 대한 블록 다이어그램을 보여준다. 알고리즘 설명을 돕기 위해 신호 흐름 경로의 여러 지점에 라벨이 부착되어 있다. | ||
+ | 블록 다이어그램은 다섯 개 주요 채널(좌, 중앙, 우, 좌서라운드, | ||
+ | 프로그램이 다섯 채널 미만일 경우 일부 입력은 사용되지 않는다. | ||
+ | 저주파 효과(LFE) 채널은 측정에서 제외된다. | ||
+ | |||
+ | {{ 20250825-231518.png }} | ||
+ | |||
+ | 알고리즘의 첫 단계는 신호에 대해 2단계 사전 필터링((K-가중 필터는 두 단계의 필터링으로 구성된다; | ||
+ | 사전 필터링의 첫 번째 단계는 머리를 강체 구(sphere)로 모델링하여 머리의 음향 효과를 반영한다. | ||
+ | 이 단계의 주파수 응답은 그림 2에 나타나 있다. | ||
+ | |||
+ | {{ 20250825-231708.png }} | ||
+ | |||
+ | 사전 필터의 1단계는 그림 3에 나타난 필터로 정의되며, | ||
+ | |||
+ | {{ 20250825-231755.png }} | ||
+ | |||
+ | {{ 20250825-231829.png }} | ||
+ | |||
+ | 이 필터 계수는 48 kHz 샘플링 속도에 해당한다. 다른 샘플링 속도에서 구현할 경우, 해당 샘플링 속도에 맞게 동일한 주파수 응답을 제공하도록 계수 값을 달리 선택해야 한다. 이 계수 값들은 사용 가능한 하드웨어의 내부 정밀도 때문에 양자화되어야 할 수도 있다. 테스트 결과 알고리즘 성능은 이 계수 값들의 작은 변화에 민감하지 않은 것으로 나타났다. | ||
+ | 사전 필터의 두 번째 단계는 그림 4에 나타난 단순한 하이패스 필터를 적용한다. 이 단계의 가중 곡선은 그림 3에 나타난 것처럼 2차 필터로 명시되며, | ||
+ | |||
+ | {{ 20250825-231934.png }} | ||
+ | |||
+ | {{ 20250825-231950.png }} | ||
+ | |||
+ | 여기서 측정 간격 T 내에 필터링된 입력 신호의 평균 제곱값, 즉 파워는 다음과 같이 측정된다: | ||
+ | |||
+ | {{ 20250825-232050.png }} | ||
+ | |||
+ | 여기서 y< | ||
+ | |||
+ | {{ 20250825-232337.png }} | ||
+ | |||
+ | 여기서 Gi는 개별 채널에 대한 가중치 계수이다. 게이티드 라우드니스 측정을 계산하기 위해, 측정 구간 T는 중첩되는 게이팅 블록 간격들의 집합으로 나뉜다. 게이팅 블록은 인접한 오디오 샘플들의 집합이며, | ||
+ | 각 게이팅 블록의 중첩 비율은 게이팅 블록 기간의 75%여야 한다. 측정 구간은 반드시 게이팅 블록이 끝나는 시점에서 종료되어야 하며, 측정 구간 끝에 불완전한 게이팅 블록이 있을 경우 이는 사용하지 않는다. | ||
+ | 측정 구간 T 내의 i번째 입력 채널의 j번째 게이팅 블록의 파워(평균 제곱값)는 다음과 같다: | ||
+ | |||
+ | {{ 20250825-232521.png }} | ||
+ | |||
+ | j번째 게이팅 블록 라우드니스는 다음과 같이 정의된다: | ||
+ | |||
+ | {{ 20250825-232645.png }} | ||
+ | |||
+ | 게이팅 임계값 Γ에 대해, 게이팅 블록 라우드니스가 임계값을 초과하는 게이팅 블록 지수들의 집합 Jg ={j:lj >Γ}가 정의된다. | ||
+ | Jg 의 원소 개수는∣Jg∣이다. 측정 구간 T의 게이티드 라우드니스는 다음과 같이 정의된다: | ||
+ | |||
+ | {{ 20250825-232825.png }} | ||
+ | |||
+ | 게이티드 측정은 두 단계 과정으로 수행된다. | ||
+ | 먼저 절대 임계값을 사용하고, | ||
+ | 절대 임계값 이하의 게이팅 블록들은 상대 임계값 계산에 사용되지 않는다. | ||
+ | 상대 임계값 Γr 는 절대 임계값 Γa=−70 LKFS를 사용하여 라우드니스를 측정하고, | ||
+ | |||
+ | {{ 20250825-232944.png }} | ||
+ | |||
+ | 여기서: | ||
+ | |||
+ | {{ 20250825-233029.png }} | ||
+ | |||
+ | 게이팅된 라우드니스는 다음과 같이 Γr 를 사용하여 계산할 수 있다: | ||
+ | |||
+ | {{ 20250825-233115.png }} | ||
+ | |||
+ | 여기서: | ||
+ | |||
+ | {{ 20250825-233137.png }} | ||
+ | |||
+ | 이 측정에서 생성되는 주파수 가중치는 사전 필터에 의한 것으로, 1단계 필터는 머리의 음향 효과를 보상하기 위해 설계된 필터이며, | ||
+ | 식 (2)에서 계산된 라우드니스 값 뒤에는 LKFS라는 표시를 붙여야 한다. 이 표시는 Loudness, K-weighted, nominal full scale 대비 상대 단위를 의미한다. | ||
+ | LKFS 단위는 데시벨과 동등하며, | ||
+ | 만약 0 dB FS, 1 kHz (정확히는 997 Hz, 참고 사항 1과 2 참조) 사인파가 좌, 중앙 또는 우 채널 입력에 적용된다면, | ||
+ | |||
+ | >참고 1 – 식 (2)의 상수 −0.691은 997 Hz에서 K-가중의 게인을 상쇄한다. | ||
+ | >참고 2 – IEC 61606은 별도 명시가 없는 한, 측정을 위한 기준 주파수로 실제 주파수인 997 Hz를 사용하며, | ||
+ | |||
+ | 각 채널에 대한 가중치 계수는 표 3에 나와 있다. | ||
+ | |||
+ | {{ 20250825-233255.png }} | ||
+ | |||
+ | 이 알고리즘은 방송 콘텐츠에 전형적인 오디오 프로그램에 대해 효과적인 것으로 입증되었으나, | ||
+ | |||
+ | 이는 순수 음에 대해서는 알고리즘이 라우드니스를 과소평가하는 경향이 있기 때문이다. | ||
+ | |||
+ | ======부록 1 부속서 1 (참고용)====== | ||
+ | 멀티채널 측정 알고리즘의 설명 및 개발 | ||
+ | |||
+ | 본 부속서는 오디오 신호의 주관적 라우드니스를 객관적으로 측정하기 위해 새로 개발된 알고리즘을 설명한다. | ||
+ | 이 알고리즘은 모노, 스테레오 및 멀티채널 신호의 라우드니스를 정확하게 측정하는 데 사용할 수 있다. | ||
+ | 제안된 알고리즘의 주요 이점은 매우 단순하여, | ||
+ | 이 부속서에서는 또한 알고리즘 성능 평가를 위해 사용된 주관적 데이터베이스를 형성하기 위해 진행된 공식 주관적 시험 결과도 설명한다. | ||
+ | |||
+ | =====1. 서론===== | ||
+ | 오디오 신호의 주관적 라우드니스를 측정하고 제어해야 하는 많은 응용 분야가 있다. | ||
+ | 예로는 텔레비전과 라디오 방송 응용 분야가 있는데, 여기서는 오디오 자료의 성격과 내용이 자주 변화한다. | ||
+ | 이러한 응용 분야에서는 오디오 콘텐츠가 음악, 음성, 음향 효과 또는 이들의 조합 사이를 계속 전환할 수 있다. | ||
+ | 이러한 프로그램 자료 내용의 변화는 주관적 라우드니스에 큰 변화를 초래할 수 있다. | ||
+ | 게다가 다양한 형태의 다이나믹스 프로세싱이 신호에 자주 적용되며, | ||
+ | 물론, 라우드니스 문제는 다이나믹스 프로세싱이 일반적으로 녹음의 인지된 라우드니스를 극대화하기 위해 사용되는 음악 산업에서도 매우 중요하다. | ||
+ | 최근 몇 년간 Radiocommunication Working Party 6P에서는 방송 응용을 위한 전형적 프로그램 자료의 인지 라우드니스를 객관적으로 측정하는 수단을 규명하기 위한 노력이 계속되어 왔다. | ||
+ | ITU-R의 첫 단계 노력은 독점적으로 객관적 모노포닉 라우드니스 알고리즘을 검토했으며, | ||
+ | 방송 응용을 위해 모노, 스테레오, | ||
+ | 본 부속서는 모노, 스테레오, | ||
+ | 제안된 알고리즘은 Leq(RLB) 알고리즘의 직관적인 확장에 기반한다. | ||
+ | 더욱이 새 멀티채널 알고리즘은 모노포닉 Leq(RLB) 알고리즘의 매우 낮은 계산 복잡도를 유지한다. | ||
+ | |||
+ | =====2. 배경===== | ||
+ | ITU-R 연구의 첫 단계에서 대표적 모노포닉 프로그램 자료의 라우드니스 지각을 검토하기 위한 주관적 시험 방법이 개발되었다 [A1-2]. 이 주관적 시험은 전 세계 5개 장소에서 이루어졌으며, | ||
+ | 오디오 시퀀스는 실제 방송 자료(텔레비전 및 라디오)에서 추출되었다. | ||
+ | 이 시험과 더불어, 캐나다 통신 연구 센터의 오디오 지각 실험실에서 평가를 위해 7개 단체가 제출한 10개의 상업용 모노포닉 라우드니스 미터/ | ||
+ | 두 측정법 중 하나인 Leq(RLB)는 재설계한 저주파 B 곡선(RLB)이라는 하이패스 주파수 가중곡선을 사용한다. | ||
+ | 다른 측정법인 Leq는 단순한 비가중 평균 제곱 측정법이다. | ||
+ | 그림 5는 Leq(RLB) 라우드니스 미터에 대한 ITU-R 초기 연구 결과를 보여준다. | ||
+ | 가로축은 주관적 데이터베이스에서 파생된 상대 주관적 라우드니스를 나타내고, | ||
+ | 빈 원은 음성 기반 오디오 시퀀스를, | ||
+ | 데이터 점들이 대각선 주변에 밀집해 있어 Leq(RLB) 미터의 매우 우수한 성능을 나타낸다. | ||
+ | Leq(RLB)는 평가된 모든 미터 중 가장 좋은 성능을 보였으며(통계적 의미 내에서는 일부 심리음향 기반 미터도 비슷한 성능을 보임), | ||
+ | Leq 또한 RLB만큼 거의 좋은 성능을 나타냈다. | ||
+ | 이 결과는 전형적인 모노포닉 방송 자료에 대해 상세한 지각 모델을 포함할 수 있는 복잡한 측정법에 비해 간단한 에너지 기반 라우드니스 측정법도 충분히 견고함을 시사한다. | ||
+ | |||
+ | {{ 20250825-234201.png }} | ||
+ | |||
+ | =====3. Leq(RLB) 알고리즘의 설계===== | ||
+ | Leq(RLB) 라우드니스 알고리즘은 매우 단순하게 설계되었다. | ||
+ | Leq(RLB) 알고리즘의 블록 다이어그램이 그림 6에 나타나 있다. | ||
+ | 이 알고리즘은 하이패스 필터와 그 다음에 시간에 대한 에너지를 평균하는 수단으로 구성된다. | ||
+ | 필터의 출력은 에너지를 합산하고 시간에 대해 평균을 계산하는 처리 블록으로 전달된다. | ||
+ | 이 필터의 목적은 신호 스펙트럼 내용에 대해 인지적으로 관련된 가중치를 제공하는 것이다. | ||
+ | 라우드니스 측정에 이 기본 구조를 사용하는 장점 중 하나는 모든 처리가 매우 낮은 계산량을 요구하는 간단한 시간 영역 블록으로 수행될 수 있다는 점이다. | ||
+ | |||
+ | {{ 20250825-234313.png }} | ||
+ | |||
+ | 그림 6에 나타난 Leq(RLB) 알고리즘은 단순히 등가음압 수준(Leq) 측정의 주파수 가중 버전이다. | ||
+ | Leq는 다음과 같이 정의된다: | ||
+ | |||
+ | {{ 20250825-234433.png }} | ||
+ | |||
+ | 여기서: | ||
+ | * xW: 가중 필터 출력의 신호 | ||
+ | * xRef: 어떤 참조 레벨 | ||
+ | * T: 오디오 시퀀스의 길이. | ||
+ | |||
+ | Leq(W)에서 W 기호는 주파수 가중치를 나타내며, | ||
+ | |||
+ | =====4. 주관적 시험===== | ||
+ | 잠재적인 멀티채널 라우드니스 측정법을 평가하기 위해서는 주관적 데이터베이스를 구축하기 위한 공식적인 주관적 시험을 실시할 필요가 있었다. | ||
+ | 잠재적 라우드니스 측정 알고리즘은 이후 주관적 시험 결과를 예측하는 능력을 기반으로 평가될 수 있다. | ||
+ | 해당 데이터베이스는 모노, 스테레오 및 멀티채널 프로그램 자료의 광범위한 범위에 대해 인지된 라우드니스 등급을 제공했다. | ||
+ | 시험에 사용된 프로그램 자료는 전 세계의 실제 텔레비전 및 라디오 방송뿐만 아니라 CD 및 DVD에서도 가져왔다. | ||
+ | 테스트 시퀀스에는 음악, 텔레비전 및 영화 드라마, 스포츠 이벤트, 뉴스 방송, 음향 효과 및 광고가 포함되었다. | ||
+ | 시퀀스에는 여러 언어의 음성 구간도 포함되어 있었다. | ||
+ | |||
+ | ====4.1 주관적 시험 셋업==== | ||
+ | 주관적 시험은 라우드니스 매칭 작업으로 구성되었다. | ||
+ | 시험 대상자들은 다양한 전형적인 프로그램 자료를 듣고, 각 시험 항목의 레벨을 참조 신호와 인지된 라우드니스가 일치할 때까지 조절하였다(그림 7 참고). | ||
+ | 참조 신호는 항상 60 dBA 레벨로 재생되었는데, | ||
+ | |||
+ | {{ 20250825-234810.png }} | ||
+ | |||
+ | 호주 방송 공사(Australian Broadcasting Corporation)가 개발하고 기여한 소프트웨어 기반 멀티채널 주관적 시험 시스템은 청취자가 시험 항목 간에 즉시 전환하고 각 항목의 레벨(라우드니스)을 조절할 수 있도록 하였다. 시험 소프트웨어 스크린샷은 그림 8에 나와 있다. 시험 항목의 레벨은 0.25 dB 단위로 조절할 수 있었다. “1”로 표시된 버튼을 선택하면 참조 신호에 접근할 수 있으며, 참조 신호의 레벨은 고정되어 있었다. | ||
+ | |||
+ | {{ 20250825-234901.png }} | ||
+ | |||
+ | 컴퓨터 키보드를 사용하여, | ||
+ | 따라서 두 명의 피실험자가 동일한 순서로 시험 항목을 받는 경우는 없었다. | ||
+ | 이 조치는 순서 효과에 의한 어떠한 편향 가능성도 제거하기 위해서 수행되었다. | ||
+ | |||
+ | ====4.2 주관적 데이터베이스==== | ||
+ | 제안된 알고리즘의 성능을 평가하기 위해 사용된 주관적 데이터베이스는 실제로 세 개의 별도 데이터셋으로 구성되어 있다. | ||
+ | 이 데이터셋들은 수년에 걸쳐 수행된 세 개의 독립적인 주관적 시험에서 만들어졌다. | ||
+ | 첫 번째 데이터셋은 96개의 모노포닉 오디오 시퀀스의 인지된 라우드니스를 맞추는 원래 ITU-R 연구의 결과로 구성되었다. | ||
+ | 이 데이터셋을 위해, 전 세계 다섯 개 장소에서 주관적 시험이 수행되어 총 97명의 청취자가 참여하였다. | ||
+ | ITU-R Radiocommunication WP 6P SRG3의 세 명의 패널 멤버들이 시험 시퀀스와 참조 항목을 선택하였다. | ||
+ | 이 실험에서 참조 신호는 영어 여성 음성이었으며, | ||
+ | 원래 ITU-R 모노포닉 연구 이후, 일부 알고리즘 지지자들은 주관적 시험에 사용된 신호의 범위와 유형이 충분히 포괄적이지 않다고 추측하였다. | ||
+ | 그리고 이것이 단순한 Leq(RLB) 에너지 기반 알고리즘이 다른 모든 알고리즘을 능가한 이유라고 추정하였다. | ||
+ | 이 문제를 해결하기 위해, 지지자들은 추가 주관적 시험을 위한 새로운 오디오 시퀀스를 제출하도록 요청받았다. | ||
+ | 이들은 Leq(RLB) 알고리즘에 대해 보다 도전적인 것으로 여겨지는 모노포닉 시퀀스를 제출하도록 권장받았다. | ||
+ | 그러나 계량기 지지자 중 두 명만이 새로운 시퀀스를 제출하였다. | ||
+ | 이 새로운 시퀀스를 사용하여, | ||
+ | 총 20명의 피실험자가 96개 모노포닉 시퀀스에 대해 라우드니스 평가를 제공하였다. | ||
+ | 이 시험은 첫 번째 데이터셋 생성에 사용된 동일한 주관적 방법론과 동일한 참조 신호를 사용하였다. | ||
+ | 세 번째 데이터셋은 144개의 오디오 시퀀스에 대한 라우드니스 평가로 구성되었다. | ||
+ | 시험 시퀀스는 48개의 모노포닉 항목, 48개의 스테레오 항목, 48개의 멀티채널 항목으로 구성되었다. | ||
+ | 더욱이, 모노포닉 항목의 절반은 중심 채널(모노)을 통해 재생되었고, | ||
+ | 이는 모노포닉 신호를 청취하는 두 가지 다른 방법을 반영하기 위함이다. | ||
+ | 이 시험에서 참조 신호는 스테레오 분위기와 저수준 배경 음악이 포함된 영어 여성 음성이었다. | ||
+ | 총 20명의 피실험자가 이 시험에 참여했으며, | ||
+ | |||
+ | {{ 20250825-235107.png }} | ||
+ | |||
+ | 첫 번째와 두 번째 데이터셋은 모노포닉 시험 시퀀스로만 제한되어 있었기 때문에 이미징은 고려 사항이 아니었다. | ||
+ | 스테레오 및 멀티채널 시퀀스를 포함하는 세 번째 데이터셋에서는 이미징이 중요한 고려 사항이었으며, | ||
+ | 시퀀스 내의 이미징과 분위기가 시퀀스의 인지된 라우드니스에 상당한 영향을 미칠 수 있다고 여겨졌다. | ||
+ | 따라서 스테레오 및 멀티채널 시퀀스는 다양한 이미징 스타일(예: | ||
+ | 모노, 듀얼 모노, 스테레오 및 멀티채널 신호의 라우드니스를 동시에 맞춰야 했기 때문에, 이 시험은 모노 신호로만 제한된 이전 데이터셋보다 본질적으로 더 어려웠다. | ||
+ | 이러한 어려움은 다양한 이미징 스타일과 분위기 양의 차이로 더욱 심화되었다. | ||
+ | 이러한 요인들로 인해 피실험자들이 과중한 과제에 직면할 수 있다는 우려가 있었다. | ||
+ | 다행히도 예비 시험에서는 이 과제가 관리 가능함을 시사했으며, | ||
+ | |||
+ | ====5. 멀티채널 라우드니스 알고리즘 설계==== | ||
+ | 앞서 언급한 바와 같이, Leq(RLB) 알고리즘은 모노포닉 신호에 적용되도록 설계되었으며, | ||
+ | 멀티채널 라우드니스 알고리즘 설계는 몇 가지 추가적인 과제를 야기한다. | ||
+ | 성공적인 멀티채널 알고리즘에 대한 핵심 요구사항은 모노, 듀얼 모노, 스테레오 신호에도 잘 작동해야 한다는 점이다. | ||
+ | 즉, 이러한 포맷들은 멀티채널 신호의 특수한 경우로 간주되어야 한다(매우 일반적인 경우임에도 불구하고). | ||
+ | 본 연구에서는 멀티채널 신호가 표준 권고 ITU-R BS.775 5.1 채널 구성에 부합한다고 가정한다. | ||
+ | LFE 채널은 고려하지 않는다. | ||
+ | 멀티채널 라우드니스 미터에서는 각 개별 오디오 채널의 라우드니스를 모노포닉 Leq(RLB) 알고리즘으로 독립적으로 측정한다(그림 10 참조). | ||
+ | 하지만 Leq(RLB) 측정을 하기 전에 각 채널마다 프리필터링이 적용된다. | ||
+ | |||
+ | {{ 20250825-235243.png }} | ||
+ | |||
+ | 프리필터의 목적은 머리가 들어오는 신호에 미치는 음향 효과를 반영하기 위함이다. 여기서 머리는 단단한 구체로 모델링된다. 동일한 프리필터가 각 채널에 적용된다. | ||
+ | 산출된 라우드니스 값은 신호가 도달하는 각도에 따라 가중치(Gi)를 부여받고, | ||
+ | 이 가중치는 청취자의 뒤쪽에서 도달하는 소리가 앞쪽에서 도달하는 소리보다 더 크게 인지될 수 있음을 반영하기 위해 사용된다. | ||
+ | 그림 10의 “프리필터”와 “RLB 필터”의 조합은 부속서 1 본문에 명시된 바와 같이 K-가중치라고 한다. | ||
+ | 제안된 멀티채널 라우드니스 알고리즘의 주요 장점 중 하나는 단순성이다. | ||
+ | 이 알고리즘은 시간 영역에서 저렴한 하드웨어로 쉽게 구현할 수 있는 매우 기본적인 신호 처리 블록들로만 구성되어 있다. | ||
+ | 또 다른 주요 장점은 확장성이다. 각 채널에 적용되는 처리가 동일하므로, | ||
+ | 또한, 개별 채널의 기여도가 신호 레벨이 아니라 라우드니스 값으로서 합산되므로, | ||
+ | 이로 인해 제안된 라우드니스 측정법은 훨씬 더 범용적이고 견고하다. | ||
+ | |||
+ | ====6. 멀티채널 알고리즘 평가==== | ||
+ | 세 개 데이터셋에서 사용된 336개의 오디오 시퀀스는 제안된 멀티채널 알고리즘을 통해 처리되었으며, | ||
+ | 이 과정을 통해 알고리즘의 전체 성능은 예상 등급과 공식 주관적 시험에서 얻은 실제 주관적 등급 간의 일치도를 바탕으로 평가될 수 있었다. | ||
+ | 그림 11, 12, 13은 세 데이터셋에 대한 제안된 라우드니스 미터의 성능을 나타낸다. | ||
+ | 각 그림에서 가로축은 데이터셋 내 각 오디오 시퀀스의 주관적 라우드니스를 제공하며, | ||
+ | 그래프상의 각 점은 개별 오디오 시퀀스에 대한 결과를 나타낸다. | ||
+ | 완벽한 객관적 알고리즘이라면 모든 데이터 점이 원점을 지나 기울기 1인 대각선 상에 위치할 것이다(그림에 표시된 바와 같이). | ||
+ | |||
+ | {{ 20250825-235501.png }} | ||
+ | |||
+ | 그림 11에서 제안된 멀티채널 라우드니스 알고리즘이 첫 번째(모노포닉) 데이터셋의 결과를 매우 잘 예측하는 것을 확인할 수 있다. | ||
+ | 주관적 라우드니스 평가와 객관적 라우드니스 측정 간의 상관계수는 r=0.979이다. | ||
+ | 그림 12에서 볼 수 있듯이, 두 번째 데이터셋에 대한 주관적 라우드니스 평가와 객관적 라우드니스 측정 간의 상관계수도 매우 우수하며 r=0.985이다. | ||
+ | 흥미로운 점은 이 데이터셋에서 약 절반가량의 시퀀스가 음악이었다는 것이다. | ||
+ | |||
+ | {{ 20250825-235548.png }} | ||
+ | |||
+ | {{ 20250825-235602.png }} | ||
+ | |||
+ | 그림 13은 모노, 듀얼 모노, 스테레오 및 멀티채널 신호를 포함하는 세 번째 데이터셋의 결과를 보여준다. | ||
+ | 그림 13과 14에 포함된 멀티채널 결과는 지정된 알고리즘에 대한 것이지만, | ||
+ | 4.0 dB에서 1.5 dB로의 변경이 결과에 큰 영향을 미치지 않는 것으로 확인되었다. | ||
+ | 다시 한 번, 알고리즘의 성능은 매우 우수하며 상관계수는 r=0.980이다. | ||
+ | 336개 오디오 시퀀스로 구성된 전체 주관적 데이터베이스에 대한 알고리즘 성능을 살펴보는 것이 유용하다. | ||
+ | 따라서 그림 14는 세 개 데이터셋의 결과를 결합한 것이다. | ||
+ | 전체 주관적 데이터베이스에 걸쳐 매우 우수한 성능을 보이며, 전체 상관계수는 r=0.977이다. | ||
+ | |||
+ | {{ 20250825-235703.png }} | ||
+ | |||
+ | 이 평가 결과는 Leq(RLB) 라우드니스 측정법을 기반으로 하는 멀티채널 라우드니스 측정 알고리즘이 주관적 데이터베이스의 336개 시퀀스에 대해 매우 우수한 성능을 발휘함을 나타낸다. | ||
+ | 주관적 데이터베이스는 음악, 텔레비전 및 영화 드라마, 스포츠 이벤트, 뉴스 방송, 음향 효과 및 광고 등 광범위한 프로그램 자료를 포함하고 있다. | ||
+ | 또한 여러 언어의 음성 구간도 시퀀스에 포함되어 있다. | ||
+ | 더 나아가, 결과는 제안된 라우드니스 미터가 모노, 듀얼 모노, 스테레오뿐만 아니라 멀티채널 신호에서도 잘 작동함을 입증한다. | ||
+ | |||
+ | =====References ===== | ||
+ | * [A1-1] BENJAMIN, E. (October, 2004) Preferred Listening Levels and Acceptance Windows for Dialog Reproduction in the Domestic Environment, | ||
+ | * [A1-2] SOULODRE, G.A. (May, 2004) Evaluation of Objective Loudness Meters, 116th Convention of the Audio Engineering Society, Berlin, Preprint 6161. | ||
+ | |||
+ | ======Annex 2====== | ||
+ | |||
+ | **Guidelines for accurate measurement of “true-peak” level** | ||
+ | |||
+ | 이 부속서는 단일 채널 선형 PCM 디지털 오디오 신호 내에서 실제 피크 레벨을 추정하는 알고리즘을 설명한다. 다음 설명은 48 kHz 샘플링 주파수를 전제로 한다. | ||
+ | 실제 피크 레벨은 연속 시간 도메인에서 신호 파형의 최대 (양수 또는 음수) 값이며, 이 값은 48 kHz 시간 샘플링 도메인의 최대 샘플 값보다 더 클 수 있다. | ||
+ | |||
+ | =====1. 요약===== | ||
+ | 처리 단계는 다음과 같다: | ||
+ | |||
+ | - 감쇠: 12.04 dB 감쇠 | ||
+ | - 4배 오버샘플링 | ||
+ | - 저역통과 필터 | ||
+ | - 절대값 처리 | ||
+ | - dB TP(실제 피크)로 변환 | ||
+ | |||
+ | =====2. Block diagram===== | ||
+ | |||
+ | {{ 20250826-001932.png }} | ||
+ | |||
+ | =====3. 상세 설명===== | ||
+ | 첫 번째 단계는 12.04 dB(2비트 시프트)의 감쇠를 가하는 것이다. | ||
+ | 이 단계의 목적은 후속 신호 처리에서 정수 연산을 사용할 경우를 대비한 여유 공간을 제공하는 것이다. | ||
+ | 부동 소수점 계산 시에는 이 단계가 필요하지 않다. | ||
+ | 4배 오버샘플링 필터는 신호 샘플링 주파수를 48 kHz에서 192 kHz로 증가시킨다. | ||
+ | 이 고샘플링 신호는 오디오 샘플로 표현된 실제 파형을 더 정확히 나타낸다. | ||
+ | 더 높은 샘플링 주파수와 오버샘플링 비율이 선호된다(이 부속서 부록 1 참조). | ||
+ | 더 높은 샘플링 주파수를 가진 입력 신호는 상대적으로 더 적은 오버샘플링이 필요하다(예: | ||
+ | 이 요구사항을 만족하는 한 세트 필터 계수(차수 48, 4상, FIR 보간 필터)는 다음과 같다: | ||
+ | |||
+ | {{ 20250826-002100.png }} | ||
+ | |||
+ | {{ 20250826-002116.png }} | ||
+ | |||
+ | 샘플의 절대값은 음수 값 샘플을 반전시켜 취한다; 이 시점에서 신호는 단극성이며, | ||
+ | 감쇠, 오버샘플링, | ||
+ | 이후에 초기 12.04 dB 감쇠를 보상할 필요가 있다. | ||
+ | 이 보상은 전체 처리의 이득을 정상화하여 1배가 되게 한다. | ||
+ | 감쇠된 값을 12.04 dB(2비트 왼쪽 시프트) 증폭하는 것은, 일반적으로 원래 형식의 전체 스케일 범위보다 높은 값을 표현할 수 있는 수치 형식으로의 변환을 요구할 수 있다. | ||
+ | 부동 소수점 형식으로 계산 단계를 수행하면 이 요구를 충족시킨다. | ||
+ | 결과를 증폭하는 대신, 미터 스케일을 적절히 보정하는 방법도 있다. | ||
+ | 이 가이드라인을 따르고 최소 192 kHz 오버샘플링 샘플링 레이트를 사용하는 미터는 결과를 dB TP 단위로 표시해야 하며, 결과를 로그 스케일로 변환한다. | ||
+ | 이는 감쇠, 오버샘플링, | ||
+ | “dB TP” 표기는 100% 풀 스케일 대비 실제 피크 측정을 나타내는 데시벨 단위임을 의미한다. | ||
+ | |||
+ | {{tag>" |
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법