음향:industrial_standards:itu:itu-r_bs_1770
[홈레코딩 필독서]"모두의 홈레코딩"구매링크
가성비 있는 녹음실 찾으시나요? 리버사이드 재즈 스튜디오에서 녹음하세요!
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법
차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
다음 판 | 이전 판 | ||
음향:industrial_standards:itu:itu-r_bs_1770 [2025/06/02] – 만듦 - 바깥 편집 127.0.0.1 | 음향:industrial_standards:itu:itu-r_bs_1770 [2025/08/26] (현재) – [키워드] 정승환 | ||
---|---|---|---|
줄 1: | 줄 1: | ||
+ | ======ITU-R BS.1770====== | ||
+ | |||
+ | **Algorithms to measure audio programme loudness and true-peak audio level** | ||
+ | |||
+ | =====서문===== | ||
+ | 무선통신 분야의 역할은 모든 무선통신 서비스(위성 서비스를 포함)의 합리적이고, | ||
+ | 무선통신 분야의 규제 및 정책 기능은 세계 및 지역 무선통신 회의와 무선통신 총회에서 수행되며, | ||
+ | |||
+ | ====범위==== | ||
+ | 본 권고는 주관적 프로그램 라우드니스와 트루피크 신호 레벨을 결정하기 위한 오디오 측정 알고리즘을 규정한다. | ||
+ | |||
+ | ====키워드==== | ||
+ | 3/2 멀티채널 사운드 시스템, 고급 사운드 시스템, 라우드니스, | ||
+ | |||
+ | ITU 무선통신 총회는 다음을 고려한다: | ||
+ | * a) 현대의 디지털 음향 전송 기술이 매우 넓은 다이내믹 레인지를 제공하는 점; | ||
+ | * b) 현대의 디지털 음향 제작 및 전송 기술이 권고 ITU-R BS.775에 명시된 모노, 스테레오 및 3/2 멀티채널 포맷과 권고 ITU-R BS.2051에 명시된 메타데이터와의 결합을 포함한 채널 기반, 객체 기반, 씬 기반의 입력 신호 및 그 조합을 제공하며, | ||
+ | * c) 청취자들이 다양한 소스와 프로그램 유형에 대해 오디오 프로그램의 주관적 라우드니스가 균일하기를 바라는 점; | ||
+ | * d) 오디오 레벨을 측정하는 다양한 방법이 존재하지만, | ||
+ | * e) 프로그램 교환의 라우드니스 제어를 위해 청취자 불편을 줄이기 위해 주관적 라우드니스의 객관적 추정을 위한 단일 권장 알고리즘이 필수적이라는 점; | ||
+ | * f) 향후 심리음향 모델 기반의 복잡한 알고리즘이 다양한 오디오 프로그램에 대해 향상된 객관적 라우드니스 측정값을 제공할 수 있다는 점; | ||
+ | * g) 디지털 미디어는 갑자기 오버로드되며, | ||
+ | 추가로, | ||
+ | * a) 필터링 또는 비트레이트 감소와 같이 일반적으로 적용되는 과정에 의해 피크 신호 레벨이 증가할 수 있다는 점; | ||
+ | * b) 기존 미터링 기술이 디지털 신호에 포함된 트루피크 레벨을 반영하지 못하는데, | ||
+ | * c) 디지털 신호 처리가 신호의 트루피크 레벨을 근접하게 추정할 수 있는 알고리즘 구현을 실용적으로 만든다는 점; | ||
+ | * d) 트루피크 레벨의 표시 알고리즘 사용이 디지털 오디오 신호의 피크 레벨과 클리핑 레벨 사이의 헤드룸을 정확히 나타낼 수 있게 함을, | ||
+ | |||
+ | 권고한다 | ||
+ | |||
+ | - 권고 ITU-R BS.775에 따라 최대 다섯 개 메인 채널(모노, | ||
+ | - 권고 ITU-R BS.2051에 명시된 채널 구성과 같이, 더 많은 채널로 제작된 오디오 프로그램의 라우드니스를 객관적으로 측정해야 할 때 Annex 3에 규정된 알고리즘을 사용할 것; | ||
+ | - 객체 기반 오디오 신호 또는 채널- 및 객체 기반 오디오 신호의 조합의 라우드니스를 객관적으로 측정해야 할 때 Annex 4에 규정된 알고리즘을 사용할 것; | ||
+ | - 프로그램 제작 및 후반 제작에서 프로그램 라우드니스 표시를 위해 사용하는 방법은 Annex 1, 3, 4에 규정된 알고리즘을 기반으로 할 수 있음; | ||
+ | - 디지털 오디오 신호의 트루피크 레벨 표시가 필요할 때, Annex 2에 명시된 가이드라인을 기반으로 하거나, 유사하거나 더 우수한 결과를 제공하는 방법을 사용할 것; | ||
+ | |||
+ | 추가 권고 | ||
+ | |||
+ | - Annex 1, 3, 4에 명시된 알고리즘보다 성능이 현저히 향상된 새로운 라우드니스 알고리즘이 나타날 경우, 본 권고를 업데이트할 필요성에 대해 고려할 것; | ||
+ | - 씬 기반 오디오 프로그램에 대해 라우드니스 측정을 가능하게 하는 새로운 알고리즘이 개발될 때 본 권고를 업데이트할 것; | ||
+ | |||
+ | >참고 1 – 사용자는 측정된 라우드니스가 주관적 라우드니스의 추정치이며, | ||
+ | |||
+ | >참고 2 – 본 권고에 따라 미터의 적합성 시험을 위해, ITU-R BS.2217 보고서에 기술된 세트의 테스트 자료를 사용할 수 있다. | ||
+ | |||
+ | ======Annex 1====== | ||
+ | |||
+ | **Specification of the objective multichannel loudness measurement algorithm** | ||
+ | |||
+ | 본 부록은 멀티채널 라우드니스 측정 모델링 알고리즘을 명세한다. | ||
+ | |||
+ | 알고리즘은 네 단계로 구성된다: | ||
+ | * “K” 주파수 가중치 적용; | ||
+ | * 각 채널의 평균 제곱 계산; | ||
+ | * 채널 가중 합산 (서라운드 채널은 더 큰 가중치를 가지며, LFE 채널은 제외됨); | ||
+ | * 400ms 블록 게이팅 (75% 중첩), 여기서 두 개의 임계값이 사용된다: | ||
+ | * 첫 번째는 −70 LKFS; | ||
+ | * 두 번째는 첫 번째 임계값 적용 후 측정된 레벨 대비 −10 dB. | ||
+ | |||
+ | 그림 1은 알고리즘의 여러 구성 요소들에 대한 블록 다이어그램을 보여준다. 알고리즘 설명을 돕기 위해 신호 흐름 경로의 여러 지점에 라벨이 부착되어 있다. | ||
+ | 블록 다이어그램은 다섯 개 주요 채널(좌, 중앙, 우, 좌서라운드, | ||
+ | 프로그램이 다섯 채널 미만일 경우 일부 입력은 사용되지 않는다. | ||
+ | 저주파 효과(LFE) 채널은 측정에서 제외된다. | ||
+ | |||
+ | {{ 20250825-231518.png }} | ||
+ | |||
+ | 알고리즘의 첫 단계는 신호에 대해 2단계 사전 필터링((K-가중 필터는 두 단계의 필터링으로 구성된다; | ||
+ | 사전 필터링의 첫 번째 단계는 머리를 강체 구(sphere)로 모델링하여 머리의 음향 효과를 반영한다. | ||
+ | 이 단계의 주파수 응답은 그림 2에 나타나 있다. | ||
+ | |||
+ | {{ 20250825-231708.png }} | ||
+ | |||
+ | 사전 필터의 1단계는 그림 3에 나타난 필터로 정의되며, | ||
+ | |||
+ | {{ 20250825-231755.png }} | ||
+ | |||
+ | {{ 20250825-231829.png }} | ||
+ | |||
+ | 이 필터 계수는 48 kHz 샘플링 속도에 해당한다. 다른 샘플링 속도에서 구현할 경우, 해당 샘플링 속도에 맞게 동일한 주파수 응답을 제공하도록 계수 값을 달리 선택해야 한다. 이 계수 값들은 사용 가능한 하드웨어의 내부 정밀도 때문에 양자화되어야 할 수도 있다. 테스트 결과 알고리즘 성능은 이 계수 값들의 작은 변화에 민감하지 않은 것으로 나타났다. | ||
+ | 사전 필터의 두 번째 단계는 그림 4에 나타난 단순한 하이패스 필터를 적용한다. 이 단계의 가중 곡선은 그림 3에 나타난 것처럼 2차 필터로 명시되며, | ||
+ | |||
+ | {{ 20250825-231934.png }} | ||
+ | |||
+ | {{ 20250825-231950.png }} | ||
+ | |||
+ | 여기서 측정 간격 T 내에 필터링된 입력 신호의 평균 제곱값, 즉 파워는 다음과 같이 측정된다: | ||
+ | |||
+ | {{ 20250825-232050.png }} | ||
+ | |||
+ | 여기서 y< | ||
+ | |||
+ | {{ 20250825-232337.png }} | ||
+ | |||
+ | 여기서 Gi는 개별 채널에 대한 가중치 계수이다. 게이티드 라우드니스 측정을 계산하기 위해, 측정 구간 T는 중첩되는 게이팅 블록 간격들의 집합으로 나뉜다. 게이팅 블록은 인접한 오디오 샘플들의 집합이며, | ||
+ | 각 게이팅 블록의 중첩 비율은 게이팅 블록 기간의 75%여야 한다. 측정 구간은 반드시 게이팅 블록이 끝나는 시점에서 종료되어야 하며, 측정 구간 끝에 불완전한 게이팅 블록이 있을 경우 이는 사용하지 않는다. | ||
+ | 측정 구간 T 내의 i번째 입력 채널의 j번째 게이팅 블록의 파워(평균 제곱값)는 다음과 같다: | ||
+ | |||
+ | {{ 20250825-232521.png }} | ||
+ | |||
+ | j번째 게이팅 블록 라우드니스는 다음과 같이 정의된다: | ||
+ | |||
+ | {{ 20250825-232645.png }} | ||
+ | |||
+ | 게이팅 임계값 Γ에 대해, 게이팅 블록 라우드니스가 임계값을 초과하는 게이팅 블록 지수들의 집합 Jg ={j:lj >Γ}가 정의된다. | ||
+ | Jg 의 원소 개수는∣Jg∣이다. 측정 구간 T의 게이티드 라우드니스는 다음과 같이 정의된다: | ||
+ | |||
+ | {{ 20250825-232825.png }} | ||
+ | |||
+ | 게이티드 측정은 두 단계 과정으로 수행된다. | ||
+ | 먼저 절대 임계값을 사용하고, | ||
+ | 절대 임계값 이하의 게이팅 블록들은 상대 임계값 계산에 사용되지 않는다. | ||
+ | 상대 임계값 Γr 는 절대 임계값 Γa=−70 LKFS를 사용하여 라우드니스를 측정하고, | ||
+ | |||
+ | {{ 20250825-232944.png }} | ||
+ | |||
+ | 여기서: | ||
+ | |||
+ | {{ 20250825-233029.png }} | ||
+ | |||
+ | 게이팅된 라우드니스는 다음과 같이 Γr 를 사용하여 계산할 수 있다: | ||
+ | |||
+ | {{ 20250825-233115.png }} | ||
+ | |||
+ | 여기서: | ||
+ | |||
+ | {{ 20250825-233137.png }} | ||
+ | |||
+ | 이 측정에서 생성되는 주파수 가중치는 사전 필터에 의한 것으로, 1단계 필터는 머리의 음향 효과를 보상하기 위해 설계된 필터이며, | ||
+ | 식 (2)에서 계산된 라우드니스 값 뒤에는 LKFS라는 표시를 붙여야 한다. 이 표시는 Loudness, K-weighted, nominal full scale 대비 상대 단위를 의미한다. | ||
+ | LKFS 단위는 데시벨과 동등하며, | ||
+ | 만약 0 dB FS, 1 kHz (정확히는 997 Hz, 참고 사항 1과 2 참조) 사인파가 좌, 중앙 또는 우 채널 입력에 적용된다면, | ||
+ | |||
+ | >참고 1 – 식 (2)의 상수 −0.691은 997 Hz에서 K-가중의 게인을 상쇄한다. | ||
+ | >참고 2 – IEC 61606은 별도 명시가 없는 한, 측정을 위한 기준 주파수로 실제 주파수인 997 Hz를 사용하며, | ||
+ | |||
+ | 각 채널에 대한 가중치 계수는 표 3에 나와 있다. | ||
+ | |||
+ | {{ 20250825-233255.png }} | ||
+ | |||
+ | 이 알고리즘은 방송 콘텐츠에 전형적인 오디오 프로그램에 대해 효과적인 것으로 입증되었으나, | ||
+ | |||
+ | 이는 순수 음에 대해서는 알고리즘이 라우드니스를 과소평가하는 경향이 있기 때문이다. | ||
+ | |||
+ | ======부록 1 부속서 1 (참고용)====== | ||
+ | 멀티채널 측정 알고리즘의 설명 및 개발 | ||
+ | |||
+ | 본 부속서는 오디오 신호의 주관적 라우드니스를 객관적으로 측정하기 위해 새로 개발된 알고리즘을 설명한다. | ||
+ | 이 알고리즘은 모노, 스테레오 및 멀티채널 신호의 라우드니스를 정확하게 측정하는 데 사용할 수 있다. | ||
+ | 제안된 알고리즘의 주요 이점은 매우 단순하여, | ||
+ | 이 부속서에서는 또한 알고리즘 성능 평가를 위해 사용된 주관적 데이터베이스를 형성하기 위해 진행된 공식 주관적 시험 결과도 설명한다. | ||
+ | |||
+ | =====1. 서론===== | ||
+ | 오디오 신호의 주관적 라우드니스를 측정하고 제어해야 하는 많은 응용 분야가 있다. | ||
+ | 예로는 텔레비전과 라디오 방송 응용 분야가 있는데, 여기서는 오디오 자료의 성격과 내용이 자주 변화한다. | ||
+ | 이러한 응용 분야에서는 오디오 콘텐츠가 음악, 음성, 음향 효과 또는 이들의 조합 사이를 계속 전환할 수 있다. | ||
+ | 이러한 프로그램 자료 내용의 변화는 주관적 라우드니스에 큰 변화를 초래할 수 있다. | ||
+ | 게다가 다양한 형태의 다이나믹스 프로세싱이 신호에 자주 적용되며, | ||
+ | 물론, 라우드니스 문제는 다이나믹스 프로세싱이 일반적으로 녹음의 인지된 라우드니스를 극대화하기 위해 사용되는 음악 산업에서도 매우 중요하다. | ||
+ | 최근 몇 년간 Radiocommunication Working Party 6P에서는 방송 응용을 위한 전형적 프로그램 자료의 인지 라우드니스를 객관적으로 측정하는 수단을 규명하기 위한 노력이 계속되어 왔다. | ||
+ | ITU-R의 첫 단계 노력은 독점적으로 객관적 모노포닉 라우드니스 알고리즘을 검토했으며, | ||
+ | 방송 응용을 위해 모노, 스테레오, | ||
+ | 본 부속서는 모노, 스테레오, | ||
+ | 제안된 알고리즘은 Leq(RLB) 알고리즘의 직관적인 확장에 기반한다. | ||
+ | 더욱이 새 멀티채널 알고리즘은 모노포닉 Leq(RLB) 알고리즘의 매우 낮은 계산 복잡도를 유지한다. | ||
+ | |||
+ | =====2. 배경===== | ||
+ | ITU-R 연구의 첫 단계에서 대표적 모노포닉 프로그램 자료의 라우드니스 지각을 검토하기 위한 주관적 시험 방법이 개발되었다 [A1-2]. 이 주관적 시험은 전 세계 5개 장소에서 이루어졌으며, | ||
+ | 오디오 시퀀스는 실제 방송 자료(텔레비전 및 라디오)에서 추출되었다. | ||
+ | 이 시험과 더불어, 캐나다 통신 연구 센터의 오디오 지각 실험실에서 평가를 위해 7개 단체가 제출한 10개의 상업용 모노포닉 라우드니스 미터/ | ||
+ | 두 측정법 중 하나인 Leq(RLB)는 재설계한 저주파 B 곡선(RLB)이라는 하이패스 주파수 가중곡선을 사용한다. | ||
+ | 다른 측정법인 Leq는 단순한 비가중 평균 제곱 측정법이다. | ||
+ | 그림 5는 Leq(RLB) 라우드니스 미터에 대한 ITU-R 초기 연구 결과를 보여준다. | ||
+ | 가로축은 주관적 데이터베이스에서 파생된 상대 주관적 라우드니스를 나타내고, | ||
+ | 빈 원은 음성 기반 오디오 시퀀스를, | ||
+ | 데이터 점들이 대각선 주변에 밀집해 있어 Leq(RLB) 미터의 매우 우수한 성능을 나타낸다. | ||
+ | Leq(RLB)는 평가된 모든 미터 중 가장 좋은 성능을 보였으며(통계적 의미 내에서는 일부 심리음향 기반 미터도 비슷한 성능을 보임), | ||
+ | Leq 또한 RLB만큼 거의 좋은 성능을 나타냈다. | ||
+ | 이 결과는 전형적인 모노포닉 방송 자료에 대해 상세한 지각 모델을 포함할 수 있는 복잡한 측정법에 비해 간단한 에너지 기반 라우드니스 측정법도 충분히 견고함을 시사한다. | ||
+ | |||
+ | {{ 20250825-234201.png }} | ||
+ | |||
+ | =====3. Leq(RLB) 알고리즘의 설계===== | ||
+ | Leq(RLB) 라우드니스 알고리즘은 매우 단순하게 설계되었다. | ||
+ | Leq(RLB) 알고리즘의 블록 다이어그램이 그림 6에 나타나 있다. | ||
+ | 이 알고리즘은 하이패스 필터와 그 다음에 시간에 대한 에너지를 평균하는 수단으로 구성된다. | ||
+ | 필터의 출력은 에너지를 합산하고 시간에 대해 평균을 계산하는 처리 블록으로 전달된다. | ||
+ | 이 필터의 목적은 신호 스펙트럼 내용에 대해 인지적으로 관련된 가중치를 제공하는 것이다. | ||
+ | 라우드니스 측정에 이 기본 구조를 사용하는 장점 중 하나는 모든 처리가 매우 낮은 계산량을 요구하는 간단한 시간 영역 블록으로 수행될 수 있다는 점이다. | ||
+ | |||
+ | {{ 20250825-234313.png }} | ||
+ | |||
+ | 그림 6에 나타난 Leq(RLB) 알고리즘은 단순히 등가음압 수준(Leq) 측정의 주파수 가중 버전이다. | ||
+ | Leq는 다음과 같이 정의된다: | ||
+ | |||
+ | {{ 20250825-234433.png }} | ||
+ | |||
+ | 여기서: | ||
+ | * xW: 가중 필터 출력의 신호 | ||
+ | * xRef: 어떤 참조 레벨 | ||
+ | * T: 오디오 시퀀스의 길이. | ||
+ | |||
+ | Leq(W)에서 W 기호는 주파수 가중치를 나타내며, | ||
+ | |||
+ | =====4. 주관적 시험===== | ||
+ | 잠재적인 멀티채널 라우드니스 측정법을 평가하기 위해서는 주관적 데이터베이스를 구축하기 위한 공식적인 주관적 시험을 실시할 필요가 있었다. | ||
+ | 잠재적 라우드니스 측정 알고리즘은 이후 주관적 시험 결과를 예측하는 능력을 기반으로 평가될 수 있다. | ||
+ | 해당 데이터베이스는 모노, 스테레오 및 멀티채널 프로그램 자료의 광범위한 범위에 대해 인지된 라우드니스 등급을 제공했다. | ||
+ | 시험에 사용된 프로그램 자료는 전 세계의 실제 텔레비전 및 라디오 방송뿐만 아니라 CD 및 DVD에서도 가져왔다. | ||
+ | 테스트 시퀀스에는 음악, 텔레비전 및 영화 드라마, 스포츠 이벤트, 뉴스 방송, 음향 효과 및 광고가 포함되었다. | ||
+ | 시퀀스에는 여러 언어의 음성 구간도 포함되어 있었다. | ||
+ | |||
+ | ====4.1 주관적 시험 셋업==== | ||
+ | 주관적 시험은 라우드니스 매칭 작업으로 구성되었다. | ||
+ | 시험 대상자들은 다양한 전형적인 프로그램 자료를 듣고, 각 시험 항목의 레벨을 참조 신호와 인지된 라우드니스가 일치할 때까지 조절하였다(그림 7 참고). | ||
+ | 참조 신호는 항상 60 dBA 레벨로 재생되었는데, | ||
+ | |||
+ | {{ 20250825-234810.png }} | ||
+ | |||
+ | 호주 방송 공사(Australian Broadcasting Corporation)가 개발하고 기여한 소프트웨어 기반 멀티채널 주관적 시험 시스템은 청취자가 시험 항목 간에 즉시 전환하고 각 항목의 레벨(라우드니스)을 조절할 수 있도록 하였다. 시험 소프트웨어 스크린샷은 그림 8에 나와 있다. 시험 항목의 레벨은 0.25 dB 단위로 조절할 수 있었다. “1”로 표시된 버튼을 선택하면 참조 신호에 접근할 수 있으며, 참조 신호의 레벨은 고정되어 있었다. | ||
+ | |||
+ | {{ 20250825-234901.png }} | ||
+ | |||
+ | 컴퓨터 키보드를 사용하여, | ||
+ | 따라서 두 명의 피실험자가 동일한 순서로 시험 항목을 받는 경우는 없었다. | ||
+ | 이 조치는 순서 효과에 의한 어떠한 편향 가능성도 제거하기 위해서 수행되었다. | ||
+ | |||
+ | ====4.2 주관적 데이터베이스==== | ||
+ | 제안된 알고리즘의 성능을 평가하기 위해 사용된 주관적 데이터베이스는 실제로 세 개의 별도 데이터셋으로 구성되어 있다. | ||
+ | 이 데이터셋들은 수년에 걸쳐 수행된 세 개의 독립적인 주관적 시험에서 만들어졌다. | ||
+ | 첫 번째 데이터셋은 96개의 모노포닉 오디오 시퀀스의 인지된 라우드니스를 맞추는 원래 ITU-R 연구의 결과로 구성되었다. | ||
+ | 이 데이터셋을 위해, 전 세계 다섯 개 장소에서 주관적 시험이 수행되어 총 97명의 청취자가 참여하였다. | ||
+ | ITU-R Radiocommunication WP 6P SRG3의 세 명의 패널 멤버들이 시험 시퀀스와 참조 항목을 선택하였다. | ||
+ | 이 실험에서 참조 신호는 영어 여성 음성이었으며, | ||
+ | 원래 ITU-R 모노포닉 연구 이후, 일부 알고리즘 지지자들은 주관적 시험에 사용된 신호의 범위와 유형이 충분히 포괄적이지 않다고 추측하였다. | ||
+ | 그리고 이것이 단순한 Leq(RLB) 에너지 기반 알고리즘이 다른 모든 알고리즘을 능가한 이유라고 추정하였다. | ||
+ | 이 문제를 해결하기 위해, 지지자들은 추가 주관적 시험을 위한 새로운 오디오 시퀀스를 제출하도록 요청받았다. | ||
+ | 이들은 Leq(RLB) 알고리즘에 대해 보다 도전적인 것으로 여겨지는 모노포닉 시퀀스를 제출하도록 권장받았다. | ||
+ | 그러나 계량기 지지자 중 두 명만이 새로운 시퀀스를 제출하였다. | ||
+ | 이 새로운 시퀀스를 사용하여, | ||
+ | 총 20명의 피실험자가 96개 모노포닉 시퀀스에 대해 라우드니스 평가를 제공하였다. | ||
+ | 이 시험은 첫 번째 데이터셋 생성에 사용된 동일한 주관적 방법론과 동일한 참조 신호를 사용하였다. | ||
+ | 세 번째 데이터셋은 144개의 오디오 시퀀스에 대한 라우드니스 평가로 구성되었다. | ||
+ | 시험 시퀀스는 48개의 모노포닉 항목, 48개의 스테레오 항목, 48개의 멀티채널 항목으로 구성되었다. | ||
+ | 더욱이, 모노포닉 항목의 절반은 중심 채널(모노)을 통해 재생되었고, | ||
+ | 이는 모노포닉 신호를 청취하는 두 가지 다른 방법을 반영하기 위함이다. | ||
+ | 이 시험에서 참조 신호는 스테레오 분위기와 저수준 배경 음악이 포함된 영어 여성 음성이었다. | ||
+ | 총 20명의 피실험자가 이 시험에 참여했으며, | ||
+ | |||
+ | {{ 20250825-235107.png }} | ||
+ | |||
+ | 첫 번째와 두 번째 데이터셋은 모노포닉 시험 시퀀스로만 제한되어 있었기 때문에 이미징은 고려 사항이 아니었다. | ||
+ | 스테레오 및 멀티채널 시퀀스를 포함하는 세 번째 데이터셋에서는 이미징이 중요한 고려 사항이었으며, | ||
+ | 시퀀스 내의 이미징과 분위기가 시퀀스의 인지된 라우드니스에 상당한 영향을 미칠 수 있다고 여겨졌다. | ||
+ | 따라서 스테레오 및 멀티채널 시퀀스는 다양한 이미징 스타일(예: | ||
+ | 모노, 듀얼 모노, 스테레오 및 멀티채널 신호의 라우드니스를 동시에 맞춰야 했기 때문에, 이 시험은 모노 신호로만 제한된 이전 데이터셋보다 본질적으로 더 어려웠다. | ||
+ | 이러한 어려움은 다양한 이미징 스타일과 분위기 양의 차이로 더욱 심화되었다. | ||
+ | 이러한 요인들로 인해 피실험자들이 과중한 과제에 직면할 수 있다는 우려가 있었다. | ||
+ | 다행히도 예비 시험에서는 이 과제가 관리 가능함을 시사했으며, | ||
+ | |||
+ | ====5. 멀티채널 라우드니스 알고리즘 설계==== | ||
+ | 앞서 언급한 바와 같이, Leq(RLB) 알고리즘은 모노포닉 신호에 적용되도록 설계되었으며, | ||
+ | 멀티채널 라우드니스 알고리즘 설계는 몇 가지 추가적인 과제를 야기한다. | ||
+ | 성공적인 멀티채널 알고리즘에 대한 핵심 요구사항은 모노, 듀얼 모노, 스테레오 신호에도 잘 작동해야 한다는 점이다. | ||
+ | 즉, 이러한 포맷들은 멀티채널 신호의 특수한 경우로 간주되어야 한다(매우 일반적인 경우임에도 불구하고). | ||
+ | 본 연구에서는 멀티채널 신호가 표준 권고 ITU-R BS.775 5.1 채널 구성에 부합한다고 가정한다. | ||
+ | LFE 채널은 고려하지 않는다. | ||
+ | 멀티채널 라우드니스 미터에서는 각 개별 오디오 채널의 라우드니스를 모노포닉 Leq(RLB) 알고리즘으로 독립적으로 측정한다(그림 10 참조). | ||
+ | 하지만 Leq(RLB) 측정을 하기 전에 각 채널마다 프리필터링이 적용된다. | ||
+ | |||
+ | {{ 20250825-235243.png }} | ||
+ | |||
+ | 프리필터의 목적은 머리가 들어오는 신호에 미치는 음향 효과를 반영하기 위함이다. 여기서 머리는 단단한 구체로 모델링된다. 동일한 프리필터가 각 채널에 적용된다. | ||
+ | 산출된 라우드니스 값은 신호가 도달하는 각도에 따라 가중치(Gi)를 부여받고, | ||
+ | 이 가중치는 청취자의 뒤쪽에서 도달하는 소리가 앞쪽에서 도달하는 소리보다 더 크게 인지될 수 있음을 반영하기 위해 사용된다. | ||
+ | 그림 10의 “프리필터”와 “RLB 필터”의 조합은 부속서 1 본문에 명시된 바와 같이 K-가중치라고 한다. | ||
+ | 제안된 멀티채널 라우드니스 알고리즘의 주요 장점 중 하나는 단순성이다. | ||
+ | 이 알고리즘은 시간 영역에서 저렴한 하드웨어로 쉽게 구현할 수 있는 매우 기본적인 신호 처리 블록들로만 구성되어 있다. | ||
+ | 또 다른 주요 장점은 확장성이다. 각 채널에 적용되는 처리가 동일하므로, | ||
+ | 또한, 개별 채널의 기여도가 신호 레벨이 아니라 라우드니스 값으로서 합산되므로, | ||
+ | 이로 인해 제안된 라우드니스 측정법은 훨씬 더 범용적이고 견고하다. | ||
+ | |||
+ | ====6. 멀티채널 알고리즘 평가==== | ||
+ | 세 개 데이터셋에서 사용된 336개의 오디오 시퀀스는 제안된 멀티채널 알고리즘을 통해 처리되었으며, | ||
+ | 이 과정을 통해 알고리즘의 전체 성능은 예상 등급과 공식 주관적 시험에서 얻은 실제 주관적 등급 간의 일치도를 바탕으로 평가될 수 있었다. | ||
+ | 그림 11, 12, 13은 세 데이터셋에 대한 제안된 라우드니스 미터의 성능을 나타낸다. | ||
+ | 각 그림에서 가로축은 데이터셋 내 각 오디오 시퀀스의 주관적 라우드니스를 제공하며, | ||
+ | 그래프상의 각 점은 개별 오디오 시퀀스에 대한 결과를 나타낸다. | ||
+ | 완벽한 객관적 알고리즘이라면 모든 데이터 점이 원점을 지나 기울기 1인 대각선 상에 위치할 것이다(그림에 표시된 바와 같이). | ||
+ | |||
+ | {{ 20250825-235501.png }} | ||
+ | |||
+ | 그림 11에서 제안된 멀티채널 라우드니스 알고리즘이 첫 번째(모노포닉) 데이터셋의 결과를 매우 잘 예측하는 것을 확인할 수 있다. | ||
+ | 주관적 라우드니스 평가와 객관적 라우드니스 측정 간의 상관계수는 r=0.979이다. | ||
+ | 그림 12에서 볼 수 있듯이, 두 번째 데이터셋에 대한 주관적 라우드니스 평가와 객관적 라우드니스 측정 간의 상관계수도 매우 우수하며 r=0.985이다. | ||
+ | 흥미로운 점은 이 데이터셋에서 약 절반가량의 시퀀스가 음악이었다는 것이다. | ||
+ | |||
+ | {{ 20250825-235548.png }} | ||
+ | |||
+ | {{ 20250825-235602.png }} | ||
+ | |||
+ | 그림 13은 모노, 듀얼 모노, 스테레오 및 멀티채널 신호를 포함하는 세 번째 데이터셋의 결과를 보여준다. | ||
+ | 그림 13과 14에 포함된 멀티채널 결과는 지정된 알고리즘에 대한 것이지만, | ||
+ | 4.0 dB에서 1.5 dB로의 변경이 결과에 큰 영향을 미치지 않는 것으로 확인되었다. | ||
+ | 다시 한 번, 알고리즘의 성능은 매우 우수하며 상관계수는 r=0.980이다. | ||
+ | 336개 오디오 시퀀스로 구성된 전체 주관적 데이터베이스에 대한 알고리즘 성능을 살펴보는 것이 유용하다. | ||
+ | 따라서 그림 14는 세 개 데이터셋의 결과를 결합한 것이다. | ||
+ | 전체 주관적 데이터베이스에 걸쳐 매우 우수한 성능을 보이며, 전체 상관계수는 r=0.977이다. | ||
+ | |||
+ | {{ 20250825-235703.png }} | ||
+ | |||
+ | 이 평가 결과는 Leq(RLB) 라우드니스 측정법을 기반으로 하는 멀티채널 라우드니스 측정 알고리즘이 주관적 데이터베이스의 336개 시퀀스에 대해 매우 우수한 성능을 발휘함을 나타낸다. | ||
+ | 주관적 데이터베이스는 음악, 텔레비전 및 영화 드라마, 스포츠 이벤트, 뉴스 방송, 음향 효과 및 광고 등 광범위한 프로그램 자료를 포함하고 있다. | ||
+ | 또한 여러 언어의 음성 구간도 시퀀스에 포함되어 있다. | ||
+ | 더 나아가, 결과는 제안된 라우드니스 미터가 모노, 듀얼 모노, 스테레오뿐만 아니라 멀티채널 신호에서도 잘 작동함을 입증한다. | ||
+ | |||
+ | =====References ===== | ||
+ | * [A1-1] BENJAMIN, E. (October, 2004) Preferred Listening Levels and Acceptance Windows for Dialog Reproduction in the Domestic Environment, | ||
+ | * [A1-2] SOULODRE, G.A. (May, 2004) Evaluation of Objective Loudness Meters, 116th Convention of the Audio Engineering Society, Berlin, Preprint 6161. | ||
+ | |||
+ | ======Annex 2====== | ||
+ | |||
+ | **Guidelines for accurate measurement of “true-peak” level** | ||
+ | |||
+ | 이 부속서는 단일 채널 선형 PCM 디지털 오디오 신호 내에서 실제 피크 레벨을 추정하는 알고리즘을 설명한다. 다음 설명은 48 kHz 샘플링 주파수를 전제로 한다. | ||
+ | 실제 피크 레벨은 연속 시간 도메인에서 신호 파형의 최대 (양수 또는 음수) 값이며, 이 값은 48 kHz 시간 샘플링 도메인의 최대 샘플 값보다 더 클 수 있다. | ||
+ | |||
+ | =====1. 요약===== | ||
+ | 처리 단계는 다음과 같다: | ||
+ | |||
+ | - 감쇠: 12.04 dB 감쇠 | ||
+ | - 4배 오버샘플링 | ||
+ | - 저역통과 필터 | ||
+ | - 절대값 처리 | ||
+ | - dB TP(실제 피크)로 변환 | ||
+ | |||
+ | =====2. Block diagram===== | ||
+ | |||
+ | {{ 20250826-001932.png }} | ||
+ | |||
+ | =====3. 상세 설명===== | ||
+ | 첫 번째 단계는 12.04 dB(2비트 시프트)의 감쇠를 가하는 것이다. | ||
+ | 이 단계의 목적은 후속 신호 처리에서 정수 연산을 사용할 경우를 대비한 여유 공간을 제공하는 것이다. | ||
+ | 부동 소수점 계산 시에는 이 단계가 필요하지 않다. | ||
+ | 4배 오버샘플링 필터는 신호 샘플링 주파수를 48 kHz에서 192 kHz로 증가시킨다. | ||
+ | 이 고샘플링 신호는 오디오 샘플로 표현된 실제 파형을 더 정확히 나타낸다. | ||
+ | 더 높은 샘플링 주파수와 오버샘플링 비율이 선호된다(이 부속서 부록 1 참조). | ||
+ | 더 높은 샘플링 주파수를 가진 입력 신호는 상대적으로 더 적은 오버샘플링이 필요하다(예: | ||
+ | 이 요구사항을 만족하는 한 세트 필터 계수(차수 48, 4상, FIR 보간 필터)는 다음과 같다: | ||
+ | |||
+ | {{ 20250826-002100.png }} | ||
+ | |||
+ | {{ 20250826-002116.png }} | ||
+ | |||
+ | 샘플의 절대값은 음수 값 샘플을 반전시켜 취한다; 이 시점에서 신호는 단극성이며, | ||
+ | 감쇠, 오버샘플링, | ||
+ | 이후에 초기 12.04 dB 감쇠를 보상할 필요가 있다. | ||
+ | 이 보상은 전체 처리의 이득을 정상화하여 1배가 되게 한다. | ||
+ | 감쇠된 값을 12.04 dB(2비트 왼쪽 시프트) 증폭하는 것은, 일반적으로 원래 형식의 전체 스케일 범위보다 높은 값을 표현할 수 있는 수치 형식으로의 변환을 요구할 수 있다. | ||
+ | 부동 소수점 형식으로 계산 단계를 수행하면 이 요구를 충족시킨다. | ||
+ | 결과를 증폭하는 대신, 미터 스케일을 적절히 보정하는 방법도 있다. | ||
+ | 이 가이드라인을 따르고 최소 192 kHz 오버샘플링 샘플링 레이트를 사용하는 미터는 결과를 dB TP 단위로 표시해야 하며, 결과를 로그 스케일로 변환한다. | ||
+ | 이는 감쇠, 오버샘플링, | ||
+ | “dB TP” 표기는 100% 풀 스케일 대비 실제 피크 측정을 나타내는 데시벨 단위임을 의미한다. | ||
+ | |||
[공지]회원 가입 방법
[공지]글 작성 및 수정 방법